Mi történt
A Google DeepMind publikált egy „AI co-mathematician” (társmatematikus) rendszert, amely ügynökalapú (agentic) felépítéssel segíti a kutatói szintű matematikai feladatok megoldását. Az „ügynök” itt úgy képzeld el, mint egy specializált digitális munkatársat: van, amelyik kódot ír és futtat, van, amelyik szakirodalmat keres, és van, amelyik bizonyítási ötleteket próbál végig.A működés kulcsa a csapatmunka és a beépített ellenőrzés. Egy koordinátor ügynök párhuzamos munkaszálakra bontja a problémát, majd a rész-ügynökök külön-külön dolgoznak: bizonyításokat vázolnak, ellenpéldákat keresnek, vagy számítógépes ellenőrzésekkel (pl. kísérleti számolásokkal) tesztelik az állításokat. A rendszer ezután belső „review” körökkel próbálja kiszűrni a hibás irányokat — gondolj rá úgy, mint egy mini konferencia-bírálati folyamatra, csak gépi szereplőkkel.
Egy látványos epizód: az Oxfordhoz tartozó Marc Lackenby egy nyitott problémát oldott meg a Kourovka Notebookból, miután egy elutasított gépi kimenetben észrevett egy különösen ötletes bizonyítási stratégiát. Vagyis nem az történt, hogy a rendszer „megoldotta helyette”, hanem hogy egy elvethetőnek tűnő próbálkozásban volt elásva egy embernek is értékes gondolat.
Teljesítményben is mérhető az előrelépés: az Epoch AI FrontierMath Tier 4 nevű, kutatói szintű feladatokat célzó benchmarkján a rendszer 48%-ot ért el, miközben a Gemini 3.1 Pro „nyers” pontszáma 19% volt.
Miért fontos
A nagy nyelvi modellek matekban gyakran ott véreznek el, ahol a szoftverfejlesztésben is: nem elég egy egyszeri „válasz”, hanem folyamat kell — tervezés, ellenőrzés, újrapróbálás, és sokszor több párhuzamos megközelítés. Az ügynökcsapatok ezt a munkamódszert hozzák át a matematikába: nem egy mindentudó modellre bízzák a végső igazságot, hanem egy szervezett műhelyre, ahol a gép több szerepben dolgozik. A Lackenby-féle történet jól mutatja a reális hasznot: a rendszer akkor erős, ha emberi kutatóknak ad gyorsabb ötletgenerálást és alternatív útvonalakat — nem akkor, ha „autopilótán” próbálja leváltani őket.Mire figyelj
- Benchmark vs. valós kutatás: a 48% jól hangzik, de érdemes figyelni, milyen feladattípusokban erős (pl. bizonyítási vázlat, részlépések, ellenőrző számolások), és hol csúszik el (pl. hosszú, formális bizonyítások következetessége).
- A belső review korlátai: a történet, ahol egy elutasított outputban volt a lényeg, arra utal, hogy a „bírálók” sem tévedhetetlenek. Kérdés, mennyire lesz fontos a jó ember–gép munkamegosztás: mit bízz a rendszerre, és mit kell mindig embernek validálnia.
- Eszközösítés (tooling): a kódírás és futtatás, irodalomkeresés és bizonyítási próbák integrációja lesz a különbség a „chatbot matek” és a kutatói asszisztens között. A következő hullám valószínűleg az lesz, hogy ezek a rendszerek egyre jobban beépülnek a matematikusok mindennapi eszköztárába, és nem különálló demóként élnek tovább.
