Indirekt promptinjekció: amikor egy weboldal „utasítja” az AI-asszisztensed

Az indirekt promptinjekció nem a felhasználói kérdésben, hanem külső tartalmakban (weboldal, e-mail, közösségi poszt) elrejtett utasításokkal próbálja eltéríteni az AI-t. A kockázat azért nagy, mert akár kattintás nélkül is működhet, és a legfontosabb LLM-biztonsági fenyegetések közé került az OWASP szerint.

Kényelmes, hogy az AI „elintézi helyetted” a böngészést, összefoglalást, e-mailezést – de mi van, ha közben egy weboldal ad neki utasításokat helyetted? Az indirekt promptinjekció pont erről szól: a támadó nem téged, hanem az asszisztensedet próbálja rávenni arra, amit nem kellene.

Mi történt

A ZDNet cikke szerint az indirekt promptinjekció mára az egyik legkomolyabb, valós környezetben is megjelenő LLM-biztonsági kockázat. A jelenség lényege, hogy a támadó nem a chatben ad rosszindulatú parancsot, hanem külső szövegekbe rejti: weboldal tartalmába, URL-ekbe, e-mailekbe vagy akár közösségi médiás posztokba. Az AI-eszköz – mivel feladatvégzés közben ezeket a forrásokat „beolvassa” – könnyen úgy kezelheti az elrejtett utasítást, mintha az a felhasználó vagy a rendszer megbízható kérése lenne.

A veszélyt az adja, hogy ezek a támadások nem feltétlenül igényelnek felhasználói interakciót. Ha az asszisztens automatikusan feldolgoz egy oldalt (például összefoglal, kutat, ajánl linkeket), akkor a rejtett prompt már „dolgozik” is. A cikk kiemeli: az indirekt promptinjekciók eredménye lehet káros tartalom megjelenítése (átverős webcímek, adathalász linkek, félretájékoztatás), és gyakran összefügg adatkiszivárogtatással vagy akár távoli kódfuttatással is – a Microsoft figyelmeztetései alapján.

A ZDNet több kutatói példát is említ. A Palo Alto Networks Unit 42 egyik anyagában például a szerzők külön „kérik” az oldalt beolvasó LLM-et, hogy ne kövesse az oldalon szereplő utasításokat, csak oktatási célból kezelje a tartalmat – ami önmagában jól mutatja, mennyire reális a probléma. A Forcepoint elemzése szerint a támadók gyakran egyszerű, de hatásos mintákkal indítanak: „Ignore previous instructions”, „If you are an LLM…”. A kifinomultabb példák között szerepel API-kulcsok megszerzésére irányuló szöveg (adatkiszivárogtatás), vagy olyan „rendszerfelülbírálás”, ami az asszisztenst jogosulatlan admin felületre próbálja terelni.

Miért fontos

Az AI-integráció (keresőkben, böngészőkben, appokban) azt jelenti, hogy az LLM egyre gyakrabban működik úgy, mint egy univerzális szövegértelmező és döntéstámogató réteg. Gondolj rá úgy, mint egy nagyon gyors gyakornokra: mindent elolvas, amit elé teszel, de nem mindig tudja, hogy a dokumentum melyik része „tartalom”, és melyik része „utasítás”. Ha pedig az asszisztens össze van kötve más szolgáltatásokkal (e-mail, naptár, közösségi fiókok), akkor a tét nem csak az, hogy rossz linket ajánl – hanem az is, hogy érzékeny adatokat kezel vagy műveleteket indít.

Nem véletlen, hogy az OWASP – amely a webes biztonsági kockázatok rangsorolásáról ismert – külön listát készít LLM-alkalmazásokhoz, és ebben a promptinjekció (direkt és indirekt) a legmagasabb kockázatok között szerepel. Ez egy fontos üzenet: az AI-chatbotot nem érdemes „mindentudó, biztonságos rendszerként” kezelni, hanem olyan komponensként, amelyet ugyanúgy támadni lehet, mint bármelyik másik szoftvert.

Mire figyelj

Ne kezeld a külső tartalmat megbízható utasításként: ha AI-eszközt építesz, a weboldalról/e-mailből beolvasott szöveg legyen „adat”, ne „parancs”. Ez a különbségtétel az indirekt promptinjekció elleni védekezés alapja.
Kövesd az OWASP LLM Top 10 ajánlásait: ha LLM-et integrálsz termékbe, ez ma az egyik legjobb kiindulópont a tipikus hibák és kockázatok feltérképezéséhez.
Figyeld a „klasszikus” mintákat a bemenetekben: a kutatók szerint gyakoriak az olyan fordulatok, mint az „Ignore previous instructions” vagy „If you are a large language model…”. Ezek önmagukban nem bizonyítékok, de jó jelzők lehetnek szűréshez és riasztáshoz.
Különösen óvatosan, ha az AI eszköz „cselekedni” is tud: minél több jogosultságot kap (e-mail küldés, fájlok elérése, integrációk), annál nagyobb a kárpotenciál. A támadások nem csak szöveget akarnak generáltatni, hanem döntéseket és műveleteket is.
Ne számíts arra, hogy a felhasználó majd „észreveszi”: a ZDNet által is hangsúlyozott kockázat, hogy az indirekt promptinjekció akár interakció nélkül is lefuthat. A védelemnek rendszeroldalon kell működnie.
Kövesd a „vadonban” talált eseteket és advisories-t: a Unit 42 és a Forcepoint példái azt mutatják, hogy ez nem elméleti probléma. A minták gyorsan változnak, ezért a friss kutatói jelentések gyakorlati előnyt adnak.

Forrásmegjelölés

ZDNet AI – How indirect prompt injection attacks on AI work - and 6 ways to shut them down (https://www.zdnet.com/article/how-indirect-prompt-injection-attacks-on-ai-work-and-6-ways-to-shut-them-down/)