AI a triázsnál: pontosabb volt, mint két orvos — de ez még nem „robotügyelet”

Egy friss, Science-ben megjelent vizsgálatban egy nagy nyelvi modell (OpenAI o1) több sürgősségi esetben pontosabb diagnózist adott a kezdeti triázsnál, mint két belgyógyász szakorvos. A különbség ott volt a legnagyobb, ahol a legkevesebb információ áll rendelkezésre — viszont a kutatók szerint ez még nem jelenti azt, hogy az AI önállóan dönthetne a sürgősségin.

A sürgősségi triázs az a pont, ahol kevés adatból kell gyorsan jó döntést hozni. Egy új kutatás szerint pont itt tudott egy AI-modell meglepően erős teljesítményt nyújtani — de a tanulság messze nem az, hogy „cseréljük le az orvosokat”.

Mi történt

Egy friss, a Science folyóiratban megjelent tanulmány több orvosi helyzetben vizsgálta nagy nyelvi modellek (LLM-ek) teljesítményét. Az LLM-eket úgy képzeld el, mint olyan rendszereket, amelyek rengeteg szövegből tanulnak, majd a kapott információk alapján valószínűségi alapon állítanak össze válaszokat — nem „orvosi intuíciójuk” van, hanem mintázatfelismerésük.

A sürgősségi rész egyik kísérletében 76, a Beth Israel sürgősségi osztályára érkező páciens esetét nézték. Két belgyógyász szakorvos diagnózisait hasonlították össze az OpenAI o1 és 4o modelljeinek diagnózisaival. A bírálatot két másik szakorvos végezte úgy, hogy nem tudták, melyik javaslat emberi és melyik AI-eredetű.

A legérdekesebb eredmény a legelső „diagnosztikai érintési pontnál” jött ki: a kezdeti triázsnál (amikor a beteg először kerül felmérésre, kevés információval és nagy időnyomással). Itt az o1 a triázsesetek 67%-ában adott „pontos vagy nagyon közeli” diagnózist. Ugyanez az arány az egyik orvosnál 55%, a másiknál 50% volt. A kutatók hangsúlyozták, hogy nem „szépítették” elő az adatokat: ugyanazt a szöveges információt kapta a modell, ami az adott pillanatban elérhető volt az elektronikus kórlapban.

Miért fontos

A triázs nem egyszerűen diagnózis-kitalálás: inkább kockázatkezelés. Gondolj rá úgy, mint egy repülőtéri biztonsági ellenőrzésre: nem az a cél, hogy mindent részletesen megmagyarázzanak, hanem hogy gyorsan kiszűrjék a legsürgősebb, életveszélyes helyzeteket. Ha egy modell már a legelső, információszegény pillanatban is stabilan tud „jó irányba terelni” (például felvetni kritikus lehetőségeket), az segíthet abban, hogy kevesebb veszélyes eset csússzon át a rostán — feltéve, hogy a rendszer jól van beépítve a folyamatokba.

Mire figyelj

Kinek a teljesítményéhez hasonlítunk? A vizsgálatban belgyógyász szakorvosok diagnózisai szerepeltek, nem sürgősségi szakorvosokéi. Ez azért számít, mert a sürgősségin a cél gyakran nem a „végső diagnózis” gyors eltalálása, hanem a halálos állapotok kizárása és a következő lépés kijelölése.
Valódi bevezetés előtt prospektív tesztek kellenek. A kutatók sem állítják, hogy az AI készen áll élet-halál döntésekre; inkább azt, hogy sürgős igény van olyan, előre megtervezett, valós betegellátásban futó vizsgálatokra, ahol mérhető a haszon és a kár is.
A „szöveg-alapú” erő nem egyenlő a teljes klinikai képpel. Itt a modellek csak szöveges adatokkal dolgoztak. A valós sürgősségi döntésekhez viszont gyakran képalkotás (CT, röntgen), EKG, monitoradatok, fizikális vizsgálat és nonverbális jelek is kellenek — ezek értelmezése ma sok alapmodellnél gyengébb.
Felelősség és bizalom: ki viszi el a balhét? A klinikai AI-nál nem csak pontosságot kell mérni, hanem azt is, hogy ki a felelős, ha a rendszer téved, és hogyan marad „ember a hurokban” úgy, hogy a döntés érthető és számonkérhető legyen. TechCrunch-ban is idéznek olyan orvosi aggályt, hogy jelenleg nincs kiforrott elszámoltathatósági keretrendszer az AI-diagnózisokra.