ARC-AGI-3: az új teszt, ahol a csúcsmodellek 1% alatt ragadtak

Megérkezett az ARC-AGI-3, François Chollet ARC Prize Foundationjének új, interaktív „józanító” benchmarkja. A feladatokat az emberek elsőre 100%-ban megoldják, miközben a legjobb AI modellek sem érik el az 1%-ot — a listavezető Gemini Pro is csak 0,37%-ot hozott.

Ha azt érzed, hogy az AI-ipar néha túl magabiztosan beszél az „AGI küszöbéről”, az ARC-AGI-3 most elég látványosan visszahúzta a mércét a földre: a legjobb modellek 1% alatt teljesítenek.

Mi történt

François Chollet ARC Prize Foundationje kiadta az ARC-AGI-3-at, az ARC-benchmark új verzióját. A forrás szerint ez egy interaktív, érvelést mérő teszt, ahol az emberek a feladatok 100%-át első próbálkozásra megoldják, miközben az AI rendszerek látványosan küszködnek.

Az ARC-AGI-3 feladatai „játék-szerű” helyzetek: nincs instrukció, a modellnek magának kell kitalálnia a szabályokat, célt formálnia, majd stratégiát terveznie. Gondolj rá úgy, mint egy új társasjátékra, ahol nem kapsz szabálykönyvet — csak nézed, mi történik, és abból kell rájönnöd, hogyan lehet nyerni.

A publikált eredmények alapján a „frontier” (csúcskategóriás) modellek közül Google Gemini Pro vezet 0,37%-kal. Utána jön a GPT 5.4 High (0,26%), az Opus 4.6 (0,25%), míg Grok-4.20 0%-ot ért el. A kihívást egy 1 millió dolláros díj is támogatja, és a társalapító Mike Knoop szerint a vezető labok most jóval komolyabban figyelnek a V3-ra, mint a korábbi verziókra.

A kontextus különösen érdekes: a forrás szerint a laborok korábbi ARC-verziókra milliókat költöttek, és kevesebb mint egy év alatt az ARC-AGI-2 pontszámokat 3%-ról ~50%-ra tornázták fel. Vagyis a „reset” most nem azt jelenti, hogy ez örökre így marad — inkább azt, hogy újraindult a verseny egy nehezebb pályán.

Miért fontos

Az ARC-AGI-3 azért üt nagyot, mert egy kellemetlen kérdést tesz fel a legdrágább modelleknek is: tényleg általános érvelést látsz, vagy csak egyre jobb mintafelismerést és egyre nagyobb számítási erőt? Chollet állítólag pont ezt akarja szétválasztani a V3-mal: mennyire „valódi” a rugalmas problémamegoldás, amikor nincs kapaszkodó (instrukció, ismert feladattípus, betanult trükk).

Hétköznapi felhasználóként ez azért releváns, mert a látványos demók és a jó chatválaszok nem ugyanazt jelentik, mint az, hogy egy rendszer új, ismeretlen helyzetben is megbízhatóan feltalálja magát. Az „agentek” kora pont erről szólna: önálló célkitűzés, tervezés, végrehajtás — és ez a teszt azt sugallja, hogy ezen a fronton még bőven van súrlódás.

Mire figyelj

Milyen gyorsan indul meg a pontszámok emelkedése? Az ARC-AGI-2 példája alapján a labok gyorsan fel tudnak kapaszkodni — kérdés, hogy itt is így lesz-e.
A javulás miből jön: jobb „érvelésből” vagy drágább rápróbálásból? A kulcs az, hogy a fejlődés mennyire általánosítható új feladatokra, nem csak a benchmark „megtanulása”.
Megjelennek-e célzott tréningek/agent-architektúrák kifejezetten ARC-AGI-3-ra? Ha igen, az sokat elárul arról, mennyire tekinti az ipar ezt valódi iránymutatónak.
A benchmark körüli ösztönzők (pl. az 1M$ díj) hogyan terelik a fejlesztést? A pénzdíj felpörgeti a fókuszt, de az is kérdés, hogy a végén mennyire „valódi képességet” mérünk, és mennyire egy optimalizált vizsgafeladatot.