Mi történt
A Futurism azzal a (New York Times által megrendelt) elemzéssel foglalkozik, amelyet az AI-startup Oumi készített a Google AI Overviews funkciójáról. Ez az a Google Keresőben megjelenő, találatok fölé tett AI-generált összefoglaló, ami sok felhasználónak már a „válasz” szerepét tölti be.Az Oumi a SimpleQA nevű tesztet használta, ami egy iparágban elterjedt pontossági benchmark (összehasonlító teszt), az OpenAI tervezte. Két mérési kör volt, mindkettőben 4 326 Google-keresést futtattak:
- Októberben egy olyan AI Overviews-verziót mértek, amelyet a cikk szerint a Gemini 2 modell hajtott.
- Februárban megismételték a tesztet, miután a funkciót a Gemini 3 modellre váltották.
A cikk ugyanakkor rámutat a skálára: a Google nagyjából 5 billió (trillion) keresést kezel évente. Ilyen volumen mellett még egy 9%-os hibaarány is nagyon sok téves választ jelenthet — az elemzés szerint óránként tízmilliós nagyságrendben.
Google vitatja az elemzés következtetéseit. A NYT-nek adott nyilatkozatban Ned Adriance szóvivő szerint a tanulmánynak „komoly hiányosságai” vannak, és „nem tükrözi, amit az emberek valójában keresnek a Google-ben”. A beszámoló ugyanakkor megjegyzi: a Google saját belső tesztjei sem feltétlenül megnyugtatóak, mert egy belső elemzésben a Gemini 3 28%-ban adott hibás információt (Google szerint az AI Overviews ennél pontosabb lehet, mert válaszadás előtt a keresési találatokra támaszkodik).
Az Oumi egy másik problémát is kiemelt: az úgynevezett „ungrounded” válaszokat. Gondolj erre úgy, mint amikor az AI ad egy magabiztos állítást, mellétesz hivatkozásokat, de a hivatkozott oldalak valójában nem támasztják alá a kijelentést. A cikk szerint a Gemini 2 esetén az „ungrounded” arány 37% volt, a Gemini 3-nál pedig 56%-ra nőtt — vagyis a frissebb modell lehet, hogy gyakrabban „lebegteti” az állításai forrását, ami az ellenőrzést nehezíti.
Miért fontos
A nagy nyelvi modellek (LLM-ek) — ilyen a Gemini is — hajlamosak tekintélyt sugárzó stílusban válaszolni, és amikor nincs egyértelmű kapaszkodójuk, előfordulhat, hogy kitalált részleteket adnak elő tényként. Ez nem feltétlen rosszindulat: inkább a működésükből fakad, hogy „folyékony szöveget” állítanak elő, nem pedig garantáltan ellenőrzött állításokat.A cikk a felhasználói oldal kockázatára is ráerősít: kutatások szerint sokan ritkán ellenőrzik az AI válaszait (egy idézett megállapítás szerint csak 8% néz utána), és még akkor is hajlamosak követni az AI-t, ha az téved — ezt egy kísérlet „cognitive surrender” (kognitív megadás) néven írta le. Ha mindehhez hozzáadod, hogy az AI Overviews a találatok fölött, kényelmesen tálalja a „kész választ”, könnyű belátni: a hibák nemcsak előfordulnak, hanem gyorsan terjedhetnek is.
Mire figyelj
- Mennyire reprezentatívak a tesztek? Google szerint a vizsgálat nem a valós keresési mintákat tükrözi. Érdemes figyelni, jönnek-e részletesebb, nyilvános módszertani viták arról, hogy milyen kérdéstípusokon bukik el leginkább az AI Overviews.
- „Ungrounded” hivatkozások kezelése: ha a hivatkozások nem támasztják alá az állítást, az ellenőrzés illúziójává válik. Kérdés, hogy a Google változtat-e azon, hogyan idéz és hogyan „földel” (grounding) forrásokra.
- Felhasználói viselkedés és UI: a pontosság mellett az is döntő, a felület mennyire ösztönöz ellenőrzésre. Ha az összefoglaló „végső válaszként” viselkedik, a tévedések hatása nagyobb lehet, mint amit a puszta százalék sugall.
- Mit mondanak a Google saját mérőszámai? A cikkben szereplő belső 28%-os hibaarány (Gemini 3) és az externális 91%-os pontosság közti különbség arra utal, hogy nem mindegy, mit és hogyan mérünk. A következő hónapokban sokat számít, milyen transzparenciát ad a Google a saját értékeléseiről.
