Mi történt
Az Anthropic Claude Mythos egy olyan modell, amelyet a cég túl erősnek tart a széles körű kiadáshoz, ezért csak korlátozott hozzáféréssel, ellenőrzött környezetben tesztelik. A brit AI Safety/Security Institute (AISI) most egy újabb „checkpointot” (gondolj rá úgy, mint a modell egy új mentett állapotára/verziójára) vizsgált meg, és a friss változat jobban teljesített, mint a korábbi Mythos-eredmények, sőt a mérésben az OpenAI GPT-5.5-öt is felülmúlta.A legkonkrétabb előrelépés a kiber „range” feladatokban látszott. A cyber range olyan, mint egy gyakorlópálya: szándékosan felépített, valósághű rendszereken kell hibákat találni, láncolni és megoldásig eljutni. A Mythos új előzetes verziója mindkét vizsgált pályát teljesítette: „The Last Ones” 10-ből 6 alkalommal sikerült, a korábban megoldatlan „Cooling Tower” pedig 10-ből 3-szor. Ez volt az első alkalom, hogy a második pályát bármely modell teljesítette ebben a tesztrendszerben.
Miért fontos
Ez a történet nem csak arról szól, hogy „melyik modell a jobb”. A lényeg inkább az, hogy a képességnövekedés nem kizárólag új, nagy kiadásokhoz kötött: egy modellen belüli frissítések is rövid idő alatt érdemi ugrást hozhatnak. Kiberbiztonsági szempontból ez azért érzékeny, mert az ilyen modellek különösen jók lehetnek sebezhetőségek (software vulnerability) felismerésében — ami védekezésre is használható, de ugyanúgy gyorsíthatja a támadói munkát is.A mérésekből az is kirajzolódik, hogy a kiberfeladatokban az AI-k képességei amúgy is gyorsuló ütemben fejlődnek: belső becslések alapján a modellek által „végigvihető” kiberfeladatok hossza 2024 vége óta nagyjából 4,7 havonta duplázódhatott (ami korábban még lassabbnak tűnt). Ugyanakkor a mostani kiugró eredményeknél nem biztos, hogy tartós trendről van szó — lehet, hogy csak két különösen erős „kilógó” modellről.
Mire figyelj
- A tokenlimit torzít: a tesztek 2,5 millió tokenben maximálták a futásokat. A token a modell „szöveg-bemenetének és -kimenetének” mértékegysége; minél több token áll rendelkezésre, annál hosszabb és összetettebb lépésláncot tud a modell végigvinni. A korlát ezért lefelé torzíthatja a valós képességeket.
- A mérőeszköz elérheti a plafonját: ha a leghosszabb feladatokon már közel 100% a siker, nehéz megmondani, hol kezd romlani a megbízhatóság. Ilyenkor a „mikor bukik el” kérdésre a tesztcsomag nem ad jó választ.
- Az agent-infrastruktúra a szorzó: ha egy modell több tokenhez és összetettebb „ügynök” (agent) keretrendszerhez jut (gondolj rá úgy, mint eszközhasználó, több lépésben tervező és végrehajtó automatizmusra), a képességek a puszta modellnél is gyorsabban skálázódhatnak.
A tanulság praktikus: a kiberképességeket nem elég modellnevekhez kötve követni — a verziók közti csendes javulás ugyanúgy megváltoztathatja a kockázati képet, akár hetek alatt is.
