DeepMind kognitív térképet ad az AGI-méréshez, Kaggle-hackathonnal

A Google DeepMind új keretrendszert és taxonómiát publikált arról, hogyan lehet empirikusan mérni az AI-rendszerek „általános” kognitív képességeit. A papírt egy Kaggle-hackathon kíséri, ahol a közösség értékeléseket (benchmarkokat) építhet különösen nehezen mérhető területekre, 200 ezer dolláros díjazással.

Ha az „AGI” szó elhangzik, a vita gyorsan elcsúszik hitvitába: ki szerint már itt van, ki szerint még évtizedekre vagyunk tőle. A DeepMind most egy józanabb irányt javasol: előbb mérjük rendesen, miről beszélünk.

Mi történt

A Google DeepMind közzétett egy új tanulmányt „Measuring Progress Toward AGI: A Cognitive Taxonomy” címmel, amely egy kognitív keretrendszert ad az AI-rendszerek képességeinek leírására és összehasonlítható mérésére. A kiindulópontjuk egyszerű: az AGI felé haladást nehéz nyomon követni, mert nincs elég empirikus (adatokra támaszkodó) eszköz arra, hogy mennyire „általános” egy rendszer intelligenciája.

A DeepMind a pszichológia, idegtudomány és kognitív tudomány több évtizedes eredményeire támaszkodva 10 kulcs-kognitív képességet azonosít, amelyek szerintük fontosak lehetnek a generalitás (általános használhatóság) szempontjából:

Percepció: érzékszervi információk kinyerése és feldolgozása (gondolj rá úgy, mint „mit lát/hal a rendszer, és mit ért belőle”).
Generálás: kimenetek létrehozása (szöveg, beszéd, cselekvés).
Figyelem (attention): a „mentális erőforrások” fókuszálása arra, ami számít.
Tanulás: új tudás megszerzése tapasztalatból és instrukcióból.
Memória: információ tárolása és későbbi előhívása.
Következtetés (reasoning): logikai lépésekből érvényes konklúziók levonása.
Metakogníció: a saját „gondolkodási folyamat” ismerete és monitorozása (mint amikor felismered, hogy bizonytalan vagy, és ellenőrzést kérsz).
Végrehajtó funkciók (executive functions): tervezés, gátlás, kognitív rugalmasság (prioritások váltása, impulzusok fékezése).
Problémamegoldás: hatékony megoldások megtalálása konkrét tartományokban.
Szociális kogníció: társas információk értelmezése és megfelelő reagálás.

A méréshez egy háromlépcsős értékelési protokollt javasolnak, amely az AI-t emberi teljesítményhez viszonyítja:

Az AI-rendszereket sokféle, a fenti képességeket lefedő kognitív feladaton mérik, külön teszthalmazokkal (held-out test sets), hogy csökkentsék a „adat-szennyezés” kockázatát. (Adat-szennyezés alatt azt értsd: a modell már találkozott a tesztfeladattal a tanítás során, így a teszt nem a képességet, hanem az emlékezést méri.)
Ugyanezekre a feladatokra emberi bázisértékeket gyűjtenek egy demográfiailag reprezentatív felnőtt mintán.
Az AI teljesítményét az emberi eloszláshoz viszonyítva térképezik fel, képességenként.

A „papír önmagában kevés” gondolat jegyében a DeepMind a Kaggle-lel együtt hackathont is indít: „Measuring progress toward AGI: Cognitive abilities” címmel. A cél, hogy a kutatóközösség konkrét méréseket/benchmarkokat tervezzen öt olyan területre, ahol a DeepMind szerint a legnagyobb az „értékelési rés” (vagyis a legnehezebb jól mérni): tanulás, metakogníció, figyelem, végrehajtó funkciók, szociális kogníció.

A résztvevők a Kaggle Community Benchmarks platformján építhetnek és tesztelhetnek értékeléseket „frontier” (csúcskategóriás) modellek ellen. A teljes díjazás 200 000 dollár: képesség-trackenént a top 2 beadás 10 000–10 000 dollárt kap, és emellett négy darab 25 000 dolláros fődíj jár a legjobb összesített megoldásoknak. A beadási időszak március 17.–április 16., eredményhirdetés június 1.

Miért fontos

Az AGI-ről szóló beszélgetések egyik visszatérő problémája, hogy a „mennyire általános” kérdésre gyakran egy-egy látványos demó vagy egy összesített benchmark-pontszám alapján próbálunk válaszolni. A DeepMind javaslata ezzel szemben úgy kezeli az intelligenciát, mint egy képességcsomagot: lehet, hogy egy modell erős generálásban és percepcióban, de gyengébb metakognícióban vagy végrehajtó funkciókban.

A hétköznapi felhasználónak ez azért releváns, mert a „jó modell” a gyakorlatban nem csak azt jelenti, hogy szépen fogalmaz. Sok valós feladatnál az számít, hogy a rendszer tud-e tanulni új helyzetekből, észreveszi-e, ha bizonytalan, képes-e fókuszáltan követni egy célt, vagy társas helyzetekben nem félreérti-e a kontextust. Ezek tipikusan azok a területek, ahol ma a legtöbb csalódás és félrehasználat is történik.

Mire figyelj

Milyen feladatokkal mérnek majd valójában? A „kognitív képesség” címke önmagában tág; a konkrét tesztek minősége dönti el, hogy tényleg képességet mérünk-e, vagy csak trükkös feladványokat.
Hogyan kezelik az adat-szennyezést és a „tanult teszteket”? A held-out teszthalmaz jó irány, de a modern modelleknél különösen fontos lesz, mennyire garantálható, hogy a teszt nem szivárgott be a tréningadatokba.
Mit jelent az „emberi baseline” a gyakorlatban? A demográfiailag reprezentatív minta jó cél, de érdemes figyelni, milyen feladatokra mennyire stabilak az emberi eloszlások (pl. kultúrafüggő szociális helyzeteknél).
A hackathonból lesz-e tartós benchmark? A legnagyobb érték akkor keletkezik, ha a verseny után is karbantartott, nyíltan használható értékelések maradnak, amelyek idővel frissíthetők a modellek fejlődéséhez.