A „91% pontosság” jól hangzik — egészen addig, amíg rá nem nézel, mit jelent ez a Google keresési volumenén. Ha a hibák aránya kicsi is, a skála miatt a tévedések száma könnyen ipari méretűvé válik.

Mi történt

A Futurism azzal a (New York Times által megrendelt) elemzéssel foglalkozik, amelyet az AI-startup Oumi készített a Google AI Overviews funkciójáról. Ez az a Google Keresőben megjelenő, találatok fölé tett AI-generált összefoglaló, ami sok felhasználónak már a „válasz” szerepét tölti be.

Az Oumi a SimpleQA nevű tesztet használta, ami egy iparágban elterjedt pontossági benchmark (összehasonlító teszt), az OpenAI tervezte. Két mérési kör volt, mindkettőben 4 326 Google-keresést futtattak:

Az eredmény: a Gemini 3-alapú AI Overviews kb. 91% pontosságot hozott, míg a Gemini 2 kb. 85%-ot.

A cikk ugyanakkor rámutat a skálára: a Google nagyjából 5 billió (trillion) keresést kezel évente. Ilyen volumen mellett még egy 9%-os hibaarány is nagyon sok téves választ jelenthet — az elemzés szerint óránként tízmilliós nagyságrendben.

Google vitatja az elemzés következtetéseit. A NYT-nek adott nyilatkozatban Ned Adriance szóvivő szerint a tanulmánynak „komoly hiányosságai” vannak, és „nem tükrözi, amit az emberek valójában keresnek a Google-ben”. A beszámoló ugyanakkor megjegyzi: a Google saját belső tesztjei sem feltétlenül megnyugtatóak, mert egy belső elemzésben a Gemini 3 28%-ban adott hibás információt (Google szerint az AI Overviews ennél pontosabb lehet, mert válaszadás előtt a keresési találatokra támaszkodik).

Az Oumi egy másik problémát is kiemelt: az úgynevezett „ungrounded” válaszokat. Gondolj erre úgy, mint amikor az AI ad egy magabiztos állítást, mellétesz hivatkozásokat, de a hivatkozott oldalak valójában nem támasztják alá a kijelentést. A cikk szerint a Gemini 2 esetén az „ungrounded” arány 37% volt, a Gemini 3-nál pedig 56%-ra nőtt — vagyis a frissebb modell lehet, hogy gyakrabban „lebegteti” az állításai forrását, ami az ellenőrzést nehezíti.

Miért fontos

A nagy nyelvi modellek (LLM-ek) — ilyen a Gemini is — hajlamosak tekintélyt sugárzó stílusban válaszolni, és amikor nincs egyértelmű kapaszkodójuk, előfordulhat, hogy kitalált részleteket adnak elő tényként. Ez nem feltétlen rosszindulat: inkább a működésükből fakad, hogy „folyékony szöveget” állítanak elő, nem pedig garantáltan ellenőrzött állításokat.

A cikk a felhasználói oldal kockázatára is ráerősít: kutatások szerint sokan ritkán ellenőrzik az AI válaszait (egy idézett megállapítás szerint csak 8% néz utána), és még akkor is hajlamosak követni az AI-t, ha az téved — ezt egy kísérlet „cognitive surrender” (kognitív megadás) néven írta le. Ha mindehhez hozzáadod, hogy az AI Overviews a találatok fölött, kényelmesen tálalja a „kész választ”, könnyű belátni: a hibák nemcsak előfordulnak, hanem gyorsan terjedhetnek is.

Mire figyelj

  1. Mennyire reprezentatívak a tesztek? Google szerint a vizsgálat nem a valós keresési mintákat tükrözi. Érdemes figyelni, jönnek-e részletesebb, nyilvános módszertani viták arról, hogy milyen kérdéstípusokon bukik el leginkább az AI Overviews.
  2. „Ungrounded” hivatkozások kezelése: ha a hivatkozások nem támasztják alá az állítást, az ellenőrzés illúziójává válik. Kérdés, hogy a Google változtat-e azon, hogyan idéz és hogyan „földel” (grounding) forrásokra.
  3. Felhasználói viselkedés és UI: a pontosság mellett az is döntő, a felület mennyire ösztönöz ellenőrzésre. Ha az összefoglaló „végső válaszként” viselkedik, a tévedések hatása nagyobb lehet, mint amit a puszta százalék sugall.
  4. Mit mondanak a Google saját mérőszámai? A cikkben szereplő belső 28%-os hibaarány (Gemini 3) és az externális 91%-os pontosság közti különbség arra utal, hogy nem mindegy, mit és hogyan mérünk. A következő hónapokban sokat számít, milyen transzparenciát ad a Google a saját értékeléseiről.