Most épp mindenki a Claude Code-ról beszél, de közben csendben megérkezett egy nyílt alternatíva: a NousCoder-14B. Nem a „varázslatos demókkal” akar nyerni, hanem azzal, hogy a teljes tanítási folyamatot is kiteszi az asztalra.

Mi történt

A Paradigm (kripto fókuszú kockázati tőkecég) által támogatott Nous Research hétfőn bemutatta a NousCoder-14B nevű, nyílt forrású kódgeneráló modellt. A VentureBeat által ismertetett technikai anyag szerint a modellt négy nap alatt tanították be 48 darab Nvidia B200 GPU-val.

A cég azt állítja, hogy a modell „több nagyobb, zárt” rendszerrel is versenyképes. A konkrét mérőszám, amit kiemelnek: 67,87% pontosság a LiveCodeBench v6-on. Ez egy sztenderd értékelés, amely kompetitív programozási feladatokon méri a modelleket (a feladatok időablaka: 2024 augusztus–2025 május). A Nous Research szerint ez +7,08 százalékpontos javulás ahhoz a bázismodellhez képest, amiből indultak: az Alibaba Qwen3-14B-hez.

Az időzítés nem véletlenül „hangos”: az Anthropic Claude Code nevű, úgynevezett agentikus (azaz több lépésben tervezni, eszközöket használni, fájlokat módosítani képes) programozó eszköze újév óta uralja a fejlesztői közbeszédet. A cikk példaként idézi Jaana Dogan (Google, Gemini API) X-posztját is: leírása szerint a Claude Code egy három bekezdéses promptból nagyjából „újraalkotta” azt, amin a csapata korábban egy évet dolgozott.

A Nous Research ezzel szemben egy másik fogadásra épít: nyílt modellekkel és ellenőrizhető feladatokon tanított rendszerekkel lehet csökkenteni a különbséget, és a transzparencia legalább annyit számít, mint a nyers képesség.

Miért fontos

Az AI-kódolásban most két irány fut párhuzamosan. Az egyik a „mindent vivő” fejlesztői élmény: egy ügynök jellegű eszköz, ami képes egy projektet végigvinni (mint a Claude Code körüli sztorikban). A másik a reprodukálható kutatás és nyílt infrastruktúra: ugyanazt a teljesítményt nem feltétlenül egyetlen zárt termékben, hanem sok szereplő által továbbépíthető alapként akarják elérni.

A NousCoder-14B ebből a szempontból azért érdekes, mert a beszámoló szerint a cég nem csak a modell súlyait adta ki, hanem a teljes megerősítéses tanulási (reinforcement learning) környezetet, a benchmarkokat és a tréning „harness”-t (magyarul: a tanítást összefogó futtató- és vezérlőrendszert) is, az Atropos keretrendszerre építve. Gondolj erre úgy, mint egy receptre, ami nem csak a kész ételt adja oda, hanem a konyhát, az alapanyaglistát és a főzési lépéseket is.

Mire figyelj

  1. Reprodukálhatóság a gyakorlatban: a Nous azt ígéri, hogy „bárki” újra tudja futtatni a tanítást, de a négy nap és 48 B200 jelzi, hogy ez inkább kutatóintézeteknek és jól finanszírozott csapatoknak reális. Érdemes figyelni, megjelennek-e kisebb compute-tal is működő variánsok.
  2. Mit mér a LiveCodeBench és mit nem: a kompetitív feladatok jól „ellenőrizhetők” (van teszt, lefut, jó/rossz), de nem ugyanaz, mint egy több hetes termékfejlesztés. A Claude Code körüli hype pont az end-to-end munkára épül — a két világ közti különbség várhatóan sok félreértést szül.
  3. „Verifiable rewards” terjedése: a cikk szerint a tanítás lényege az ellenőrizhető jutalom (a kódot futtatják teszteken, a jelzés bináris: jó/rossz). Ha ez beválik, több modellnél láthatunk hasonló, futtatás-alapú visszacsatolást, ami infrastruktúra-igényes, de tisztább jelzést ad, mint a puszta emberi értékelés.
  4. Hatékonyság vs. adatéhség: Joe Li a technikai jelentésben saját Codeforces-fejlődéséhez hasonlítja a javulást, de kiemeli a különbséget: míg ő kb. 1 000 feladatból tanult sokat, a modell kb. 24 000 problémát igényelt. Ez jó emlékeztető: a mai rendszerek sokszor gyorsak, de nem feltétlenül „tanulnak emberként takarékosan”.