DeepSeek-R1: „tiszta” RL-lel tanítanák meg gondolkodni az LLM-eket

A DeepSeek-R1 cikk szerint a nagy nyelvi modellek érvelési képességei emberi, lépésről lépésre felcímkézett minták nélkül is fejleszthetők, pusztán megerősítéses tanulással. A megközelítés verifikálható feladatokon (matek, kódolás, STEM) erős, és a szerzők azt is állítják, hogy a nagy modellekben „kialakuló” minták a kisebbek tanítására is felhasználhatók.

Mi lenne, ha a „gondolkodó” nyelvi modellekhez nem kellene többé rengeteg ember által felcímkézett, lépésenkénti levezetés? A DeepSeek-R1 állítása szerint a megerősítéses tanulás (RL) önmagában is rá tudja venni az LLM-eket, hogy jobb érvelési stratégiákat alakítsanak ki.

Mi történt

A DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning című arXiv-cikk azt állítja, hogy a nagy nyelvi modellek (LLM-ek) érvelési képességei „tiszta” megerősítéses tanulással fejleszthetők, emberi címkézésű gondolatmenetek (reasoning trajectories) nélkül.

A háttér: az utóbbi években sokat javultak a modellek a chain-of-thought (lépésről lépésre levezetett gondolatmenet) jellegű promptolással és az ehhez kapcsolódó tanítási adatokkal. A cikk szerint ez a siker azonban gyakran nagymértékben támaszkodik emberi demonstrációkra (azaz emberek által megírt, „így gondolkodj” jellegű példákra), és a képességek még mindig nem elégségesek a bonyolultabb problémákhoz.

A DeepSeek-R1 megközelítése ehelyett jutalmazásos tanulást használ: gondolj rá úgy, mint egy „pontozós edzésre”, ahol a modell sok próbálkozást tesz, és a rendszer a kimeneteket valamilyen ellenőrizhető módon értékeli (például helyes-e a végeredmény). A szerzők szerint ettől a modellekben „kialakuló” (emergent) érvelési minták jelenhetnek meg, mint:

önreflexió (a modell visszanéz és korrigál),
verifikáció (ellenőrzési lépések beiktatása),
dinamikus stratégiaadaptáció (ha az egyik út nem működik, másikat próbál).

A cikk azt is állítja, hogy az így tanított modell verifikálható feladatokon — például matematikában, programozási versenyfeladatokban és STEM (természettudományos-műszaki) területeken — jobban teljesít, mint a hagyományos, emberi demonstrációkra építő felügyelt tanulással (supervised learning) tréningezett társai. Emellett a szerzők szerint a nagy modellekben megjelenő érvelési minták rendszerbe foglalhatók, és ezzel kisebb modellek érvelését is lehet javítani.

Miért fontos

Az egyik kulcskérdés az LLM-eknél nem az, hogy „szebben fogalmaznak-e”, hanem hogy megbízhatóbban oldanak-e meg összetett feladatokat. A cikk fókusza azért érdekes, mert a verifikálható feladatok (ahol egy válasz helyessége ellenőrizhető) jó terepet adnak az RL-nek: itt a jutalom nem ízlés kérdése, hanem mérhető (például a kód lefut-e, a matek megoldás stimmel-e).

A másik fontos pont a skálázhatóság. Az emberi, lépésről lépésre felcímkézett gondolatmenetek drágák és lassan készülnek. Ha a szerzők állítása igaz, és az érvelés „ránevelhető” a modellekre emberi levezetések tömege nélkül, az csökkentheti a fejlesztés egyik legnagyobb költség- és szűk keresztmetszetét.

Mire figyelj

Milyen a jutalmazás pontos definíciója? Az RL sikere azon áll vagy bukik, hogy mit tekintünk „jó” válasznak. Verifikálható feladatoknál ez tisztább, de a részletek (milyen tesztek, milyen értékelés) döntőek.
Mennyire általánosítható a módszer? A cikk verifikálható területeket emel ki (matek, kód, STEM). Érdemes figyelni, hogy mennyire működik ott, ahol nincs egyértelmű automatikus ellenőrzés.
Mit jelent a „kisebb modellek tanítása” a gyakorlatban? A szerzők szerint a nagy modellekben megjelenő minták „szisztematikusan hasznosíthatók” kisebbekhez. A lényeg itt az, hogy ez milyen konkrét eljárást jelent (például tanár-diák jellegű tréning), és milyen kompromisszumokkal jár.