BMJ: az AI még nem váltja ki a radiológusokat a mammográfiás szűrésben

Egy BMJ-ben megjelent szisztematikus áttekintés szerint a jelenlegi bizonyítékok alapján nem lehet megbízhatóan megítélni, mennyire pontos az AI a mellrákszűrésben. A nagyobb, valós klinikai döntésekhez közelebb álló vizsgálatokban a legtöbb AI-rendszer gyengébben teljesített, mint egy radiológus, és mind gyengébben, mint két vagy több radiológus konszenzusa.

Ha azt várod, hogy a mesterséges intelligencia (AI) hamarosan leveszi a radiológusok válláról a mammográfiás szűrés terhét, ez a BMJ-tanulmány józanító olvasmány: a jelenlegi bizonyítékok alapján ez még nincs meg.

Mi történt

A BMJ 2021 szeptemberében publikált egy szisztematikus áttekintést (systematic review) arról, hogy mennyire pontosak az AI-algoritmusok a mellrák kimutatásában mammográfiás szűrés során. A szisztematikus áttekintés olyan, mint egy „irodalmi audit”: nem egy új kísérlet, hanem a meglévő tanulmányok módszeres összegyűjtése és értékelése. A szerzők 2010. január 1. és 2021. május 17. között kerestek a Medline, Embase, Web of Science és Cochrane adatbázisokban.

Összesen 12 tanulmány fért be, 131 822 szűrt nő adataival. A lényegi megállapítás azonban már itt jön: nem találtak prospektív (előre megtervezett, valós időben futó) tanulmányt, amely a szűrési gyakorlatban mérte volna az AI diagnosztikai pontosságát. A bevont vizsgálatok módszertani minősége gyenge volt; ezt a szerzők a QUADAS-2 eszközzel értékelték (ez egy standard ellenőrzőlista arra, mennyire torzíthat egy diagnosztikai vizsgálat felépítése).

A legfontosabb, klinikai döntésekhez közelebb álló eredmények három retrospektív (utólagos) vizsgálatból jöttek, amelyek 79 910 nő esetén hasonlították az AI-t az eredeti radiológusi döntéshez. Ebben a halmazban 1878 esetben volt szűréssel felfedezett rák vagy 12 hónapon belüli intervallumrák (olyan daganat, amely a negatív szűrés után, két szűrés között tünetesen jelentkezik). Ezekben a vizsgálatokban a kiértékelt 36 AI-rendszerből 34 (94%) kevésbé volt pontos, mint egy radiológus, és mindegyik rosszabb volt, mint két vagy több radiológus konszenzusa.

Ezzel szemben öt kisebb tanulmány (összesen 1086 nő, 520 rákos eset) azt találta, hogy az AI jobb lehet egy radiológusnál – de ezeknél a szerzők magas torzítási kockázatot és gyenge általánosíthatóságot jeleztek. Magyarul: inkább „laborhelyzetben” (teszt-adathalmazon) mutattak szép számokat, mintsem a valódi szűrési folyamat teljes komplexitásában.

Külön érdekes az ún. triázs (előszűrés) forgatókönyv: amikor az AI arra szolgál, hogy a nagyon alacsony kockázatú vizsgálatokat „kiszűrje”, és így kevesebb képet kelljen radiológusnak átnéznie. Három tanulmányban az AI a nők 53%, 45% és 50%-át szűrte ki alacsony kockázatúnak – de közben a radiológusok által észlelt rákok 10%, 4% és 0%-át is ezek közé sorolta. Ez a trade-off a szűrésben kritikus: a munkateher csökkentése csak akkor elfogadható, ha közben nem esik vissza a rendszer érzékenysége vagy a program „biztonsági tartaléka”.

A szerzők következtetése tömören: a jelenlegi bizonyítékok alapján nem lehet megítélni, mennyire pontos az AI a szűrőprogramokban, és az sem világos, a klinikai útvonal mely pontján hozna a legtöbbet. A mostani AI-rendszerek nem elég specifikusak ahhoz, hogy kiváltsák a szűrésben gyakori kettős leolvasást (amikor két radiológus olvassa a felvételt, eltérés esetén egyeztetéssel).

Miért fontos

A mellrákszűrés nem csak „találat vagy nem találat” kérdése. A programok eleve egy kényes egyensúlyon mennek: miközben a korai felismerés életet menthet, a szűrésnek vannak ártalmai is, például túl-diagnosztika és túlkezelés (amikor olyan elváltozást kezelnek, amely a páciens életében nem okozott volna tünetet). A tanulmány említi, hogy a túl-diagnosztika mértékéről nagy a vita (széles, 1–54%-os tartományt idéznek különböző becslésekből), és az sem mindegy, milyen típusú elváltozásokat talál a rendszer.

Ebben a környezetben az AI ígérete gyakran két dologról szól: kapacitás (kevesebb radiológus is elég) és egységesség (kevesebb emberi variancia). A BMJ-áttekintés viszont arra mutat rá, hogy a „szép eredmény” sokszor ott születik, ahol az AI-t egy gondosan válogatott tesztkészleten mérik. A valódi szűrési gyakorlatban viszont számít a populáció összetétele, a képminőség változékonysága, a munkafolyamat, a visszahívási küszöbök és az, hogy mit tekintenek végső igazságnak (biopszia/hisztológia vagy utánkövetés). Gondolj rá úgy, mint egy autóra, ami tesztpályán gyors, de a városi forgalomban derül ki, mennyire biztonságos és kiszámítható.

A gyakorlati üzenet a hétköznapi felhasználónak/páciensnek: nem arról van szó, hogy az AI „rossz”, hanem arról, hogy még nem bizonyított, hogy szűrőprogram-szinten, a megszokott minőségi és biztonsági elvárások mellett, stabilan hozza azt, amit a marketinganyagok sugallnak. A radiológusok kiváltása helyett jelenleg reálisabb irány az, hogy az AI támogató eszköz legyen – de ennek pontos helye és szabályozott használata még nincs rendesen kimérve.

Mire figyelj

Prospektív, valós környezetű vizsgálatok: a szerzők szerint ezek hiányoznak leginkább. Érdemes azt figyelni, mikor jelennek meg olyan tanulmányok, amelyek tényleges szűrőprogramokban, előre rögzített protokoll szerint mérik az AI hatását.
„Stopping rules” és program-specifikusság: a cikk kiemeli, hogy a jövőbeli vizsgálatoknak világos leállítási szabályokra van szükségük, hogy az AI ne rontsa a szűrés specificitását (köznyelven: ne növelje indokolatlanul a téves riasztásokat és a felesleges visszahívásokat).
Triázs kompromisszumai: ha AI-val akarják csökkenteni a radiológusi terhelést, kulcskérdés, hogy a „kiszűrt” csoportban mennyi valódi rákos eset maradna észrevétlen. A 10%/4%/0% tartomány azt jelzi, hogy ez beállítás- és rendszerfüggő, és nem lehet általános ígéretként kezelni.
Összehasonlítási alap: egy radiológus vs. két radiológus konszenzusa: a szűrésben sok helyen eleve kettős leolvasás van. Ha egy AI csak egy radiológust ver meg (vagy azt sem), attól még nem biztos, hogy szűrési program-szinten értelmezhető előnyt ad.