Ha az „AGI” szó elhangzik, a vita gyorsan elcsúszik hitvitába: ki szerint már itt van, ki szerint még évtizedekre vagyunk tőle. A DeepMind most egy józanabb irányt javasol: előbb mérjük rendesen, miről beszélünk.

Mi történt

A Google DeepMind közzétett egy új tanulmányt „Measuring Progress Toward AGI: A Cognitive Taxonomy” címmel, amely egy kognitív keretrendszert ad az AI-rendszerek képességeinek leírására és összehasonlítható mérésére. A kiindulópontjuk egyszerű: az AGI felé haladást nehéz nyomon követni, mert nincs elég empirikus (adatokra támaszkodó) eszköz arra, hogy mennyire „általános” egy rendszer intelligenciája.

A DeepMind a pszichológia, idegtudomány és kognitív tudomány több évtizedes eredményeire támaszkodva 10 kulcs-kognitív képességet azonosít, amelyek szerintük fontosak lehetnek a generalitás (általános használhatóság) szempontjából:

A méréshez egy háromlépcsős értékelési protokollt javasolnak, amely az AI-t emberi teljesítményhez viszonyítja:
  1. Az AI-rendszereket sokféle, a fenti képességeket lefedő kognitív feladaton mérik, külön teszthalmazokkal (held-out test sets), hogy csökkentsék a „adat-szennyezés” kockázatát. (Adat-szennyezés alatt azt értsd: a modell már találkozott a tesztfeladattal a tanítás során, így a teszt nem a képességet, hanem az emlékezést méri.)
  2. Ugyanezekre a feladatokra emberi bázisértékeket gyűjtenek egy demográfiailag reprezentatív felnőtt mintán.
  3. Az AI teljesítményét az emberi eloszláshoz viszonyítva térképezik fel, képességenként.

A „papír önmagában kevés” gondolat jegyében a DeepMind a Kaggle-lel együtt hackathont is indít: „Measuring progress toward AGI: Cognitive abilities” címmel. A cél, hogy a kutatóközösség konkrét méréseket/benchmarkokat tervezzen öt olyan területre, ahol a DeepMind szerint a legnagyobb az „értékelési rés” (vagyis a legnehezebb jól mérni): tanulás, metakogníció, figyelem, végrehajtó funkciók, szociális kogníció.

A résztvevők a Kaggle Community Benchmarks platformján építhetnek és tesztelhetnek értékeléseket „frontier” (csúcskategóriás) modellek ellen. A teljes díjazás 200 000 dollár: képesség-trackenént a top 2 beadás 10 000–10 000 dollárt kap, és emellett négy darab 25 000 dolláros fődíj jár a legjobb összesített megoldásoknak. A beadási időszak március 17.–április 16., eredményhirdetés június 1.

Miért fontos

Az AGI-ről szóló beszélgetések egyik visszatérő problémája, hogy a „mennyire általános” kérdésre gyakran egy-egy látványos demó vagy egy összesített benchmark-pontszám alapján próbálunk válaszolni. A DeepMind javaslata ezzel szemben úgy kezeli az intelligenciát, mint egy képességcsomagot: lehet, hogy egy modell erős generálásban és percepcióban, de gyengébb metakognícióban vagy végrehajtó funkciókban.

A hétköznapi felhasználónak ez azért releváns, mert a „jó modell” a gyakorlatban nem csak azt jelenti, hogy szépen fogalmaz. Sok valós feladatnál az számít, hogy a rendszer tud-e tanulni új helyzetekből, észreveszi-e, ha bizonytalan, képes-e fókuszáltan követni egy célt, vagy társas helyzetekben nem félreérti-e a kontextust. Ezek tipikusan azok a területek, ahol ma a legtöbb csalódás és félrehasználat is történik.

Mire figyelj

  1. Milyen feladatokkal mérnek majd valójában? A „kognitív képesség” címke önmagában tág; a konkrét tesztek minősége dönti el, hogy tényleg képességet mérünk-e, vagy csak trükkös feladványokat.
  2. Hogyan kezelik az adat-szennyezést és a „tanult teszteket”? A held-out teszthalmaz jó irány, de a modern modelleknél különösen fontos lesz, mennyire garantálható, hogy a teszt nem szivárgott be a tréningadatokba.
  3. Mit jelent az „emberi baseline” a gyakorlatban? A demográfiailag reprezentatív minta jó cél, de érdemes figyelni, milyen feladatokra mennyire stabilak az emberi eloszlások (pl. kultúrafüggő szociális helyzeteknél).
  4. A hackathonból lesz-e tartós benchmark? A legnagyobb érték akkor keletkezik, ha a verseny után is karbantartott, nyíltan használható értékelések maradnak, amelyek idővel frissíthetők a modellek fejlődéséhez.