Prompt injection kao konfuzija uloga: sta CoT Forgery...

Najbitniji deo novog CoT Forgery istrazivanja nije senzacionalni jailbreak primer, vec objasnjenje zasto prompt injection tako uporno opstaje kod chatbotova i agenata. Autori tvrde da modeli ne razumeju security granice onako kako to pretpostavljaju dizajneri aplikacija. Umesto toga, iz stilskih signala u jednom dugom token toku zakljucuju ko govori. Zbog toga tekst pod kontrolom napadaca ponekad moze izgledati kao pouzdano interno rezonovanje modela.

To je vazno za enterprise AI zato sto ista slabost moze pogoditi copilote, browser agente, retrieval sisteme, asistente za dokumenta i automatizaciju koja koristi alate. Ako LLM moze da bude naveden da nepoverljiv sadrzaj tretira kao sopstveno razmisljanje, onda role tag-ovi, wrapper-i i prompt templejti predstavljaju samo delimicnu odbranu. Problem je arhitektonski, a ne kozmeticki.

Zasto je nalaz o konfuziji uloga operativno bitan

Istrazivaci su pokazali da se uspesnost napada naglo menja kada uklone stilske signale koji ubaceni tekst cine slicnim modelovom rezonovanju. Drugim recima, eksploatacija se manje oslanja na ubedjivanje modela, a vise na zloupotrebu strukturnog poverenja. Bas ova vrsta slabosti iskace kada agent browsuje web, sazimlje fajlove, cita tickete ili obradjuje dokumenta iz polupouzdanih izvora.

Prompt injection nije vezan za jedan chatbot ili jedan tip sadrzaja, vec prati svaki workflow gde model cita spoljasnji tekst.
Sami role label-i nisu jaka bezbednosna granica ako model interno vise veruje stilu i kontekstu nego pravoj separaciji izvora.
Agent sistemi povecavaju blast radius jer browsing, pristup fajlovima i tool use prompt problem pretvaraju u action problem.
Cak i apsurdna logika napadaca moze proci ako je model pogresno procita kao pouzdano interno rezonovanje.

Sta AI platform i aplikativni timovi sada treba da urade

1) Pomeri bezbednosne kontrole van modela kad god mozes

Nemoj ocekivati da sama prompt struktura sprovodi politiku. Visokorizicne kontrole prebaci u deterministicki kod oko modela: tool allowlist-e, validaciju izlaza, ogranicenja parametara, approval korake i izolaciju osetljivih akcija. Model moze da predlozi, ali okolni sistemi moraju da odluce sta je zaista dozvoljeno.

2) Tretiraj preuzeti sadrzaj kao zlonameran dok se ne pokaze suprotno

Web stranice, PDF-ovi, email tela, support ticketi i knowledge-base clanci treba da budu nepoverljiv ulaz i kada deluju sasvim normalno. Retrieval pipeline trazi sanitizaciju, obelezavanje izvora, policy-aware filtriranje i smanjenje konteksta kako bi model video sto manje teksta pod kontrolom napadaca.

3) Testiraj agente napadima konfuzije uloga i stilskog oponasanja

Red-teaming treba da ukljuci napade koji imitiraju interno rezonovanje, autoritet korisnika ili stil izlaza alata, a ne samo ocigledne jailbreak formulacije. Istraživanje sugerise da i sitne promene u formulaciji mogu bitno promeniti uspeh napada, pa odbrambena evaluacija mora pokrivati style-based adversarial slucajeve, ne samo zabranjene kljucne reci.

Prioritetna response checklista

Tool execution politika	Prompt propust postaje opasan kada agent moze da deluje	Nametnuti spoljne allowlist-e, uske dozvole i approval korake za file, network i system akcije
Retrieval higijena	Nepoverljiv sadrzaj moze izgledati kao pouzdano rezonovanje	Sanitizovati preuzeti tekst, zadrzati source metadata i skracivati nepotreban kontekst pre nego sto stigne do modela
Validacija izlaza	Nesigurni zakljucci modela mogu izgledati uredno i ubedljivo	Proveravati izlaz deterministickim pravilima pre nego sto aktivira akcije ili preporuke
Adversarial testiranje	Male promene u formulaciji mogu bitno promeniti uspeh napada	U evaluacije agenata ukljuciti konfuziju uloga, imitaciju stila i skrivene instrukcije
Governance i obuka	Timovi cesto precenjuju sigurnost prompt templejta	Jasno dokumentovati pretpostavke o prompt injection-u i obuciti buildere da projektuju za hostile context

Zakljucak

CoT Forgery je korisno zato sto prompt injection prebacuje iz cudnog jailbreak problema u problem granice poverenja za AI sisteme. Timovi koji pomere kontrole van modela, sanitizuju preuzeti sadrzaj i testiraju konfuziju uloga bice u mnogo jacoj poziciji od onih koji se prema prompt formatiranju odnose kao prema stvarnom sandbox-u.