Stanford: a csúcs-AI-k „látnak” röntgent akkor is, ha nincs kép

Egy Stanford-kutatás szerint a legfejlettebb multimodális AI-modellek képesek részletes röntgenleírásokat adni és diagnosztikus érvelést előadni úgy, hogy valójában nem is kaptak képet. A jelenséget „mirage reasoning”-nek nevezik, és komoly kérdéseket vet fel az orvosi AI-benchmarkok és a valós klinikai használat megbízhatóságáról.

Ha azt hitted, hogy az orvosi képalkotásnál az AI legnagyobb kockázata a „hallucináció”, van egy még kellemetlenebb csavar: előfordul, hogy a modell úgy beszél egy röntgenről, mintha látná — akkor is, ha képet nem kapott.

Mi történt

Egy új, még nem lektorált (peer-reviewed) Stanford-egyetemi kutatás szerint a „frontier” (legfejlettebb) AI-modellek hajlamosak részletes képleírásokat és kifejtett diagnosztikus érvelést generálni olyan esetekben is, amikor a felhasználó valójában nem adott meg képet. A kutatók azt írták: a modellek „detailed image descriptions and elaborate reasoning traces” jellegű válaszokat adtak „images never provided” helyzetekben.

A csapat a jelenségre külön nevet is adott: „mirage reasoning”. Ez nem egyszerűen a klasszikus hallucináció (amikor a modell „kitölti a hézagokat”), hanem egy lépéssel több: a modell hamis keretet épít, mintha multimodális bemenet (kép + szöveg) érkezett volna, és erre a kitalált helyzetre alapozza a teljes további választ. Gondolj rá úgy, mint amikor valaki egy megbeszélésen úgy tesz, mintha olvasta volna a mellékletet — majd magabiztosan érvel belőle.

A kutatás egyik kulcsállítása, hogy a modellek nem feltétlenül „látnak”, hanem statisztikai mintákból és előfordulási valószínűségekből dolgoznak. A Stanford PhD-hallgató társszerző, Mohammad Asadi a Futurismnek úgy fogalmazott: a modellek képesek kérdésszintű és adathalmazszintű mintázatokat kihasználni, és úgy „beszélni, mintha” képet elemeznének. Szerinte alábecsüljük, mennyi információ lehet „elrejtve” magában a kérdésben, ha a modell az internet nagy részén lett betanítva.

A csapat egy új benchmarkot is készített: vizuális kérdésekből álló feladatsort, ahol a kérdések megmaradtak, de a képeket eltávolították. A beszámoló szerint több csúcsmodell — köztük az OpenAI GPT-5, a Google Gemini 3 Pro és az Anthropic Claude Opus 4.5 — így is magabiztosan adott „vizuális részletekre” vonatkozó leírásokat. A „legszélsőségesebb” esetben a kutatók azt állítják: egy modell képek nélkül is első helyre került egy standard mellkasröntgen-kérdésválaszoló benchmarkon.

Egy másik kísérletben a kutatók megváltoztatták a helyzetet: a modelleket arra kérték, hogy kifejezetten úgy válaszoljanak, mint akik csak tippelnek, mert nincs hozzáférésük képhez. Itt a teljesítmény jelentősen romlott. A szerzők szerint az „explicit guessing” (explicit tippelés) óvatosabb válaszstílust aktivál, szemben a „mirage” móddal, amikor a modell úgy viselkedik, mintha a képet tényleg megkapta volna.

Miért fontos

Az orvosi AI egyik nagy ígérete régóta a radiológiai képek (például röntgenek) elemzése. Csakhogy ha egy modell képek nélkül is képes „jó pontszámot” elérni egy benchmarkon, az azt jelenti, hogy a mérés részben nem azt méri, amit gondolunk: nem valódi képfeldolgozási képességet, hanem adatkészlet-ismeretet, gyakorisági mintákat és kérdésből kikövetkeztethető „valószínű” válaszokat.

A hétköznapi felhasználónak ez azért lényeges, mert az egészségügyben a „magabiztos, de rossz” válasz nem csak kellemetlen — kockázatos. Ha a modell képes meggyőzően előadni, hogy lát valamit a felvételen (például „infiltrátumot” vagy „folyadékot”), akkor a felhasználó — vagy egy túlzottan automatizált munkafolyamat — könnyen túlértékelheti a rendszer valós kompetenciáját.

Mire figyelj

Benchmark-reformok és „szivárgás” (data contamination) kezelése: a kutatók szerint a tesztkérdések idővel „bekerülhetnek” a nyilvános internetre, és így a pretraining adatokba is. Ez olyan, mintha a vizsgakérdések felkerülnének a netre — a vizsga onnantól nem tiszta.
„B-Clean” és a kompromittált kérdések kiszűrése: a Stanford-csapat egy „B-Clean” nevű keretrendszert javasol, amely azonosítja és eltávolítja a problémás kérdéseket (például amelyek képtől függetlenül megválaszolhatók, vagy korábbi tudásból „kitalálhatók”). A cél: csak olyan kérdések maradjanak, amelyeket kép nélkül egyik jelölt modell sem tud megoldani.
Termékoldali jelzések: „látta-e a képet?” érdemes figyelni, hogy a multimodális rendszerek a felhasználói felületen és az API-válaszokban mennyire egyértelműen jelzik: ténylegesen kaptak-e képi bemenetet, és mennyire bizonytalanok.
Egészségügyi bevezetéseknél a „konzervatív mód” értéke: a kutatás alapján az explicit „tippelésre” kényszerítés óvatosabb választ vált ki. Klinikai környezetben az ilyen „bizonytalanság-központú” viselkedés (például: nem állít képi részleteket, ha nincs kép) nem kényelmetlenség, hanem biztonsági funkció.