DeepMind „AI társmatematikusa”: ügynökcsapatokkal támad a kutatói matek

A Google DeepMind egy olyan, ügynökökből álló rendszert mutatott be, amely nem kész válaszokat „mond”, hanem matematikai kutatómunkát szervez: kódol, irodalmat keres, bizonyítást próbál és lektorál. A megközelítés új csúcsot ért el egy kifejezetten AI-t próbára tevő matek benchmarkon, és egy professzor egy elutasított gépi bizonyításban talált ötletből oldott meg egy nyitott feladatot.

A matekban a „jó válasz” ritkán egy sor a végén — inkább hetekig tartó próbálkozás, ellenőrzés és zsákutca. Most egy olyan AI-rendszer került reflektorfénybe, ami pont ezt a kutatói munkafolyamatot próbálja lemásolni, nem csak egy megoldást kiköpni.

Mi történt

A Google DeepMind publikált egy „AI co-mathematician” (társmatematikus) rendszert, amely ügynökalapú (agentic) felépítéssel segíti a kutatói szintű matematikai feladatok megoldását. Az „ügynök” itt úgy képzeld el, mint egy specializált digitális munkatársat: van, amelyik kódot ír és futtat, van, amelyik szakirodalmat keres, és van, amelyik bizonyítási ötleteket próbál végig.

A működés kulcsa a csapatmunka és a beépített ellenőrzés. Egy koordinátor ügynök párhuzamos munkaszálakra bontja a problémát, majd a rész-ügynökök külön-külön dolgoznak: bizonyításokat vázolnak, ellenpéldákat keresnek, vagy számítógépes ellenőrzésekkel (pl. kísérleti számolásokkal) tesztelik az állításokat. A rendszer ezután belső „review” körökkel próbálja kiszűrni a hibás irányokat — gondolj rá úgy, mint egy mini konferencia-bírálati folyamatra, csak gépi szereplőkkel.

Egy látványos epizód: az Oxfordhoz tartozó Marc Lackenby egy nyitott problémát oldott meg a Kourovka Notebookból, miután egy elutasított gépi kimenetben észrevett egy különösen ötletes bizonyítási stratégiát. Vagyis nem az történt, hogy a rendszer „megoldotta helyette”, hanem hogy egy elvethetőnek tűnő próbálkozásban volt elásva egy embernek is értékes gondolat.

Teljesítményben is mérhető az előrelépés: az Epoch AI FrontierMath Tier 4 nevű, kutatói szintű feladatokat célzó benchmarkján a rendszer 48%-ot ért el, miközben a Gemini 3.1 Pro „nyers” pontszáma 19% volt.

Miért fontos

A nagy nyelvi modellek matekban gyakran ott véreznek el, ahol a szoftverfejlesztésben is: nem elég egy egyszeri „válasz”, hanem folyamat kell — tervezés, ellenőrzés, újrapróbálás, és sokszor több párhuzamos megközelítés. Az ügynökcsapatok ezt a munkamódszert hozzák át a matematikába: nem egy mindentudó modellre bízzák a végső igazságot, hanem egy szervezett műhelyre, ahol a gép több szerepben dolgozik. A Lackenby-féle történet jól mutatja a reális hasznot: a rendszer akkor erős, ha emberi kutatóknak ad gyorsabb ötletgenerálást és alternatív útvonalakat — nem akkor, ha „autopilótán” próbálja leváltani őket.

Mire figyelj

Benchmark vs. valós kutatás: a 48% jól hangzik, de érdemes figyelni, milyen feladattípusokban erős (pl. bizonyítási vázlat, részlépések, ellenőrző számolások), és hol csúszik el (pl. hosszú, formális bizonyítások következetessége).
A belső review korlátai: a történet, ahol egy elutasított outputban volt a lényeg, arra utal, hogy a „bírálók” sem tévedhetetlenek. Kérdés, mennyire lesz fontos a jó ember–gép munkamegosztás: mit bízz a rendszerre, és mit kell mindig embernek validálnia.
Eszközösítés (tooling): a kódírás és futtatás, irodalomkeresés és bizonyítási próbák integrációja lesz a különbség a „chatbot matek” és a kutatói asszisztens között. A következő hullám valószínűleg az lesz, hogy ezek a rendszerek egyre jobban beépülnek a matematikusok mindennapi eszköztárába, és nem különálló demóként élnek tovább.