Mi történt
A Google DeepMind közzétett egy új tanulmányt „Measuring Progress Toward AGI: A Cognitive Taxonomy” címmel, amely egy kognitív keretrendszert ad az AI-rendszerek képességeinek leírására és összehasonlítható mérésére. A kiindulópontjuk egyszerű: az AGI felé haladást nehéz nyomon követni, mert nincs elég empirikus (adatokra támaszkodó) eszköz arra, hogy mennyire „általános” egy rendszer intelligenciája.A DeepMind a pszichológia, idegtudomány és kognitív tudomány több évtizedes eredményeire támaszkodva 10 kulcs-kognitív képességet azonosít, amelyek szerintük fontosak lehetnek a generalitás (általános használhatóság) szempontjából:
- Percepció: érzékszervi információk kinyerése és feldolgozása (gondolj rá úgy, mint „mit lát/hal a rendszer, és mit ért belőle”).
- Generálás: kimenetek létrehozása (szöveg, beszéd, cselekvés).
- Figyelem (attention): a „mentális erőforrások” fókuszálása arra, ami számít.
- Tanulás: új tudás megszerzése tapasztalatból és instrukcióból.
- Memória: információ tárolása és későbbi előhívása.
- Következtetés (reasoning): logikai lépésekből érvényes konklúziók levonása.
- Metakogníció: a saját „gondolkodási folyamat” ismerete és monitorozása (mint amikor felismered, hogy bizonytalan vagy, és ellenőrzést kérsz).
- Végrehajtó funkciók (executive functions): tervezés, gátlás, kognitív rugalmasság (prioritások váltása, impulzusok fékezése).
- Problémamegoldás: hatékony megoldások megtalálása konkrét tartományokban.
- Szociális kogníció: társas információk értelmezése és megfelelő reagálás.
- Az AI-rendszereket sokféle, a fenti képességeket lefedő kognitív feladaton mérik, külön teszthalmazokkal (held-out test sets), hogy csökkentsék a „adat-szennyezés” kockázatát. (Adat-szennyezés alatt azt értsd: a modell már találkozott a tesztfeladattal a tanítás során, így a teszt nem a képességet, hanem az emlékezést méri.)
- Ugyanezekre a feladatokra emberi bázisértékeket gyűjtenek egy demográfiailag reprezentatív felnőtt mintán.
- Az AI teljesítményét az emberi eloszláshoz viszonyítva térképezik fel, képességenként.
A „papír önmagában kevés” gondolat jegyében a DeepMind a Kaggle-lel együtt hackathont is indít: „Measuring progress toward AGI: Cognitive abilities” címmel. A cél, hogy a kutatóközösség konkrét méréseket/benchmarkokat tervezzen öt olyan területre, ahol a DeepMind szerint a legnagyobb az „értékelési rés” (vagyis a legnehezebb jól mérni): tanulás, metakogníció, figyelem, végrehajtó funkciók, szociális kogníció.
A résztvevők a Kaggle Community Benchmarks platformján építhetnek és tesztelhetnek értékeléseket „frontier” (csúcskategóriás) modellek ellen. A teljes díjazás 200 000 dollár: képesség-trackenént a top 2 beadás 10 000–10 000 dollárt kap, és emellett négy darab 25 000 dolláros fődíj jár a legjobb összesített megoldásoknak. A beadási időszak március 17.–április 16., eredményhirdetés június 1.
Miért fontos
Az AGI-ről szóló beszélgetések egyik visszatérő problémája, hogy a „mennyire általános” kérdésre gyakran egy-egy látványos demó vagy egy összesített benchmark-pontszám alapján próbálunk válaszolni. A DeepMind javaslata ezzel szemben úgy kezeli az intelligenciát, mint egy képességcsomagot: lehet, hogy egy modell erős generálásban és percepcióban, de gyengébb metakognícióban vagy végrehajtó funkciókban.A hétköznapi felhasználónak ez azért releváns, mert a „jó modell” a gyakorlatban nem csak azt jelenti, hogy szépen fogalmaz. Sok valós feladatnál az számít, hogy a rendszer tud-e tanulni új helyzetekből, észreveszi-e, ha bizonytalan, képes-e fókuszáltan követni egy célt, vagy társas helyzetekben nem félreérti-e a kontextust. Ezek tipikusan azok a területek, ahol ma a legtöbb csalódás és félrehasználat is történik.
Mire figyelj
- Milyen feladatokkal mérnek majd valójában? A „kognitív képesség” címke önmagában tág; a konkrét tesztek minősége dönti el, hogy tényleg képességet mérünk-e, vagy csak trükkös feladványokat.
- Hogyan kezelik az adat-szennyezést és a „tanult teszteket”? A held-out teszthalmaz jó irány, de a modern modelleknél különösen fontos lesz, mennyire garantálható, hogy a teszt nem szivárgott be a tréningadatokba.
- Mit jelent az „emberi baseline” a gyakorlatban? A demográfiailag reprezentatív minta jó cél, de érdemes figyelni, milyen feladatokra mennyire stabilak az emberi eloszlások (pl. kultúrafüggő szociális helyzeteknél).
- A hackathonból lesz-e tartós benchmark? A legnagyobb érték akkor keletkezik, ha a verseny után is karbantartott, nyíltan használható értékelések maradnak, amelyek idővel frissíthetők a modellek fejlődéséhez.
