Az AI-értékelés lett az új compute-szűk keresztmetszet

Az AI-modellek értékelése (eval) már nem „pár teszt lefuttatása”: egyes agent benchmarkoknál egyetlen futás is több ezer dollárba kerülhet, és a teljes leaderboardok tízezres nagyságrendben égetnek el költséget. A Hugging Face blogposzt szerint a költségek nemcsak a modellektől, hanem a scaffoldoktól és a megbízhatóságot célzó ismétlésektől is drasztikusan függenek.

Ha azt hitted, a nagy AI-projektek legdrágább része a tanítás, ideje frissíteni a képet: egyre több helyen az értékelés (evaluation, „eval”) az, ami igazán megfogja a költségvetést. És ez nem csupán pénzügyi kérdés — meghatározza, ki tud egyáltalán hitelesen összehasonlítani modelleket.

Mi történt

A Hugging Face blogcikke szerint az AI-evalok átléptek egy olyan költségküszöböt, ami megváltoztatja, kik engedhetik meg maguknak az alapos tesztelést. Példaként a Holistic Agent Leaderboard (HAL) publikus költségelszámolását hozza: a leaderboard kb. 40 000 dollárt költött 21 730 agent rollout lefuttatására 9 modell és 9 benchmark mentén. (A „rolloutot” úgy képzeld el, mint egy teljes, végigjátszott feladatmegoldási kísérletet: az ügynök lépéseinek sorozata a környezettel.) Később a futások száma tovább nőtt, és egy független reprodukció is hasonló összköltséget jelzett.

A cikk kiemeli, hogy agent benchmarkoknál a költség nem csak „sok token” kérdése: a futtatási költség feladatonként szélsőségesen szór, a HAL-on belül akár több nagyságrendet. Ráadásul az árképzés is széthúz: a forrás konkrét példákat ad különböző modellek tokenáraira, ahol az input/output tokenek ára között nagyságrendi különbségek vannak — ami azonnal megjelenik a benchmark-számlán.

A legfontosabb technikai tanulság: agent értékelésnél ritkán „csak a modellt” méred. Inkább a modell × scaffold × token-budget kombinációt. A scaffold itt az a „állványzat”, vagyis az ügynök köré épített futtatási keret: milyen eszközöket használhat (pl. böngésző, kódvégrehajtás), hogyan bontja lépésekre a feladatot, milyen promptolási és memóriastruktúrák vannak, mennyi visszacsatolást kér, stb. Gondolj rá úgy, mint egy receptre: ugyanaz az alapanyag (modell) teljesen más költséggel és eredménnyel „sül ki”, attól függően, hogyan főzöd.

A cikk több, konkrét költségpéldát is említ. Egy GAIA futás egy frontier modellen 2 829 dollár is lehet (cache előtt). Az Exgentic egy 22 000 dolláros konfigurációs sweepben azt találta, hogy azonos feladatokon 33×-os költségszórás is kijöhet, és ebben a scaffold-választás „elsőrendű” költségmeghajtó. Emellett a UK-AISI olyan vizsgálatot is skálázott, ahol az agent lépések száma milliós nagyságrendbe ment, kifejezetten az inference-time compute (a futtatás közbeni számítás) tanulmányozására.

A jelenség nem csak agenteknél látszik. A poszt felidézi, hogy már a statikus LLM benchmarkok (ahol a modell „csak válaszol”) is drágák voltak: a Stanford CRFM HELM (2022) esetén a papírban szereplő per-modell API-költségek 85 dollártól 10 926 dollárig terjedtek, open modelleknél pedig több száz–több ezer GPU-órát is elvittek egyes futások. A teljes HELM-összkép a közölt számok alapján kb. 100 000 dollár körül jött ki.

A másik költségcsapda a fejlesztési ciklus: amikor sok checkpointot értékelsz újra és újra. A Pythia checkpointok elemzésénél a forrás azt emeli ki, hogy az értékelés szorzóként ül rá a fejlesztésre, és bizonyos esetekben az eval költsége „akár meg is haladhatja a pretraininget”, különösen kisebb modelleknél.

A statikus benchmarkoknál ugyanakkor volt egy jó hír: sok esetben lehetett agresszíven olcsósítani úgy, hogy a rangsor nagyjából megmaradjon. A cikk idéz olyan eredményeket, ahol a HELM compute-ja 100×–200× csökkenthető volt a sorrend lényegi felborítása nélkül, és említi a „coarse-to-fine” megközelítést (Flash-HELM): először olcsó, durva szűrés, majd csak a legjobbaknak drága, nagy felbontású mérés. Más munkák is hasonló irányba mentek: MMLU drasztikus rövidítése, leaderboardok példaszámának összehúzása, „anchor point” jellegű rangsorolás kevés példával.

Csakhogy — és itt jön a fordulat — a poszt szerint ez a trükk agent benchmarkoknál sokkal kevésbé működik. Az agent értékelések zajosabbak, scaffold-érzékenyek, és csak részben „kompresszálhatók”. Ráadásul vannak eleve drága konstrukciók (például training-in-the-loop benchmarkok), és ha megbízhatóságot akarsz (ismételt futások, szórás becslése), az tovább sokszorozza a költséget.

Miért fontos

Az eval-költség nem csak arról szól, hogy „drága a felhő”. Arról is, hogy ki tud valós, reprodukálható összehasonlítást csinálni. Ha egyetlen komolyabb agent benchmark futás több ezer dollár, akkor a független kutatók, kisebb cégek, sőt sok egyetemi csapat is rákényszerülhet arra, hogy ritkábban mérjen, kisebb mintán mérjen, vagy egyszerűen elfogadja mások eredményeit — ami a tudományos és ipari ellenőrizhetőséget is gyengítheti.

A másik hétköznapi következmény: amikor egy cég azt mondja, hogy „X modell jobb Y-nál agent feladatokban”, valójában gyakran azt is állítja (akár kimondatlanul), hogy az ő scaffoldja, tokenbudgetje és futtatási beállításai mellett jobb. Ez nem csalás, csak a probléma természete — de az összehasonlítás így könnyen almát körtével helyzetbe csúszik.

Mire figyelj

Költségtranszparencia: egyre fontosabb lesz, hogy a leaderboardok és tanulmányok ne csak pontszámot, hanem tokenhasználatot, futásszámot, ismétléseket és összköltséget is közöljenek (a HAL-hoz hasonlóan).
Scaffold-standardizálás vs. valóság: érdemes figyelni, mely benchmarkok tudnak közös, standard scaffoldot adni, és hol marad túl nagy a „receptkülönbség” a csapatok között.
Coarse-to-fine és kompresszió korlátai agenteknél: a statikus benchmarkoknál bevált „rövidítsük le a tesztet” ötletek csak részben vihetők át. A kérdés az lesz, hol lehet mégis okosan spórolni anélkül, hogy a zaj és a scaffold-érzékenység szétverné a mérés értelmét.
Megbízhatóság ára: ha egy agent benchmarknál nagy a szórás, akkor a „biztos” eredményhez több ismétlés kell — ez pedig nem lineárisan, hanem nagyon gyorsan tudja feltekerni a számlát.