NVIDIA Nemotron 3: agentekhez tervezett modellek, RAG, hang és safety

Az NVIDIA a GTC 2026-on bemutatta a Nemotron 3 családot, amelyet kifejezetten „agentic” rendszerekhez állított össze: hosszú kontextusú érvelés, multimodális RAG, valós idejű hang és tartalombiztonság egy stackben. A fókusz a skálázhatóságon és a kiszámítható költségen/latencián van, nem csak a nyers pontszámokon.

Ha AI-ügynököket építesz, előbb-utóbb belefutsz két kellemetlen falba: a beszélgetési/ügynök-memória „elszáll” (kontekstrobbannás), és a részletes érvelés (chain-of-thought) drága és lassú lesz. Az NVIDIA most egy olyan Nemotron 3 „agentic stackkel” próbál erre választ adni, ahol a gondolkodás, a keresés (RAG), a hang és a safety külön, specializált modellekre van szétosztva.

Mi történt

Az NVIDIA a GTC 2026-on új Nemotron 3 modellgenerációt mutatott be, kifejezetten több komponensből álló, ügynökös (agentic) rendszerekhez. A vállalat narratívája szerint az „agentic AI” nem egyetlen nagy modellről szól, hanem egy ökoszisztémáról: külön modellek végzik a tervezést, az érvelést, a visszakeresést (retrieval) és a biztonsági „korlátozást” (guardrailing).

A bejelentett elemek:

NVIDIA Nemotron 3 Super: hosszú kontextusú érvelés és agent-feladatok.
NVIDIA Nemotron 3 Ultra (coming soon): a cég szerint a legmagasabb érvelési pontosság/hatékonyság az „open frontier” mezőnyben.
NVIDIA Nemotron 3 Content Safety: multimodális (szöveg+kép), többnyelvű moderáció.
NVIDIA Nemotron 3 VoiceChat (early access): alacsony késleltetésű, természetes, full-duplex (oda-vissza egyszerre) beszéd.
NVIDIA Nemotron 3 Nano Omni (coming soon): vállalati szintű multimodális megértés.
NVIDIA Nemotron RAG: képi és szöveges beágyazások (embeddings) generálása, illetve vizuális relevanciát igénylő újrarangsorolás (rerank) a NVIDIA Llama Nemotron Embed VL és NVIDIA Llama Nemotron Rerank VL modellekkel.

A blog hangsúlyozza, hogy a modellek mellett nyílt adatok, tréning-receptek és az NVIDIA NeMo eszközök is részei a csomagnak, vagyis a cél egy „end-to-end” fejlesztői út: építés, kiértékelés, optimalizálás, élesítés.

A technikai fókusz középpontjában a Nemotron 3 Super áll. A többügynökös rendszereknél gyakori a „context explosion”: az ügynökök állapotai, eszközhívásai, naplói és visszakeresett dokumentumai miatt a token-hisztoriák akár 15× nagyobbak lehetnek, mint egy átlagos chatnél. Erre jön rá a „thinking tax”, vagyis hogy sok döntésnél végig kell futtatni költséges érvelési lépéseket.

A Nemotron 3 Super egy nyílt súlyú (open-weight), hibrid mixture-of-experts (MoE) modell, amely egy előrehaladási lépésben csak 12B paramétert aktivál, így a számítási költség jóval alacsonyabb lehet, mint egy „mindent egyszerre” futtató nagy modellnél. Gondolj a MoE-re úgy, mint egy nagy szakértői csapatra, ahol egy kérdésnél nem mindenki beszél egyszerre: csak az a néhány „szakértő” kap szót, aki releváns.

Az NVIDIA szerint a Super Mamba + Transformer rétegeket kombináló hibrid architektúrát használ, több-tokenes előrejelzéssel (multi-token prediction), és NVFP4 precizitással futtatható Blackwell GPU-kon. A lényeg közérthetően: alacsonyabb pontosságú számábrázolással (FP4-szerű formátum) és hardverre optimalizált futtatással nagyobb átvitelt (throughput) lehet kihozni kisebb memóriaigénnyel. A cég állítása szerint ez akár 5× throughput növekedést hozhat az előző generációhoz képest, miközben csökken a memória- és költségigény.

Kiemelt fejlesztői kontroll a „thinking budget”: ez egy konfigurálható keret az érvelési (chain-of-thought) költségére és mélységére, hogy a késleltetés és a kiadás kiszámítható maradjon folyamatos ügynök-munkaterhelésnél is.

A Super esetében a blog 1M tokenes kontextusablakot említ, valamint megerősítéses tanulást (reinforcement learning) 10+ környezetben, ami a leírás szerint erős kódolásban, matematikában, utasításkövetésben és function callingban (amikor a modell strukturáltan „eszközöket” hív meg, például API-kat).

A hatékonyságot egy további trükk is támogatja: a modell latent MoE megközelítést használ, ahol négy szakértőt tud „meghívni” egy szakértő költségével, mert a tokeneket „összenyomja” (kompresszálja), mielőtt a szakértőkhöz kerülnek.

A blog külső értékelésekre is hivatkozik: az Artificial Analysis Intelligence Index alapján (250B alatti open-weight modellek mezőnyében) a Nemotron 3 Super NVFP4 a top modellek között szerepel, és az „intelligencia vs. hatékonyság” ábrán a kívánatos „jobb felső” tartományba kerül, vagyis egyszerre erős teljesítmény és magas GPU-nkénti kimeneti sebesség a cél.

A stack másik „termelési” pillére a Nemotron 3 Content Safety. Ez egy 4B paraméteres, multimodális biztonsági modell, ami szöveg és kép alapján dönt safe/unsafe módon, opcionálisan részletes kategóriákkal. A blog szerint Gemma-3-4B alapra épül, adapteres klasszifikációs fejjel (értsd: a fő modellre ráültetett, célfeladatra hangolt „osztályozó” réteg). A fejlesztők egy kapcsolóval választhatnak gyors bináris döntés és részletes taxonómia-riport között.

A cég állítása szerint a modell multimodális, többnyelvű safety benchmarkokon kb. 84% pontosságot ér el, és a késleltetés elég alacsony „inline” moderációhoz (vagyis a pipeline közepén, valós időben). A taxonómia 23 kategóriás, az Aegis 1–3 rendszerével azonos (például gyűlölet, zaklatás, erőszak, szexuális tartalom, plágium, jogosulatlan tanácsadás). A tréningadatoknál a blog kiemeli, hogy Aegis adatkészletekre és emberek által annotált valós képekre támaszkodik, nem főként szintetikus adatokra, és 12 támogatott nyelvet említ.

Miért fontos

Az „agentic” irány egyik tanulsága, hogy a termékesítéshez nem elég egy erős alapmodell: kell kiszámítható késleltetés, költségkeret, eszközhívás, RAG, és mindehhez biztonsági réteg. A Nemotron 3 csomag üzenete az, hogy ezt érdemes specializált komponensekre bontani, és az egész stacket úgy tervezni, mintha egy szoftverrendszer lenne, nem pedig egyetlen modell.

A hétköznapi felhasználónak ez közvetve csapódik le: ha a fejlesztők tényleg tudják korlátok közé szorítani a „gondolkodási adót” és a kontextusrobbanást, akkor az ügynökök kevésbé lesznek „laggosak”, ritkábban felejtenek, és olcsóbban skálázhatók. A safety modell pedig azért lényeges, mert a multimodalitással (képek, dokumentumok, képernyőképek) a kockázatok is többcsatornásak: nem csak a kimenetet kell nézni, hanem a bemenetet és a visszakeresett tartalmat is.

Mire figyelj

Mit jelent a gyakorlatban az 1M tokenes kontextus? Kövesd, hogy milyen sebességgel és költséggel tartható fenn hosszú ügynök-munkameneteknél, és milyen „memória-stratégiákat” ajánlanak mellé (összegzés, kompresszió, RAG).
NVFP4 és Blackwell-függőség: a blog a Blackwell GPU-kon mért NVFP4 előnyöket hangsúlyozza. Érdemes figyelni, mennyire hordozható a teljesítmény más hardveren, és hol jön ki a valódi TCO-előny.
Thinking budget mint termékfeature: nézd meg, hogy ez mennyire ad finom kontrollt (feladattípusonként, ügynökfázisonként), és hogyan hat a minőségre, ha szigorú keretet adsz.
Safety: bináris vs. taxonómia: a gyors safe/unsafe döntés csábító, de vállalati környezetben gyakran kell auditálhatóság és kategóriaszintű riport. Figyeld, milyen kompromisszumokkal jár a két mód.
Multimodális RAG minősége: az Embed VL és Rerank VL akkor számít igazán, ha a relevancia a képi tartalmon múlik (például diagramok, fotók, képernyőképek). Kérdés, mennyire stabil ez különböző domain-ekben.

Forrásmegjelölés

NVIDIA Developer Blog – Building NVIDIA Nemotron 3 Agents for Reasoning, Multimodal RAG, Voice, and Safety (https://developer.nvidia.com/blog/building-nvidia-nemotron-3-agents-for-reasoning-multimodal-rag-voice-and-safety/)