MLPerf Inference v6.0: NVIDIA szerint a „tokenköltség” a valódi mérce

Az NVIDIA a friss MLPerf Inference v6.0 eredményekkel azt üzeni: nem a csúcsteljesítmény-adatlapok számítanak, hanem a ténylegesen kitermelt tokenek és minták. A cég szerint a hardver–szoftver–modell „extrém társtervezése” és a TensorRT-LLM frissítései akár 2,7× gyorsulást is hozhatnak ugyanazon infrastruktúrán.

Ha AI-t futtatsz (vagy csak fizeted a számlát érte), nem az a kérdés, hogy egy GPU papíron mennyit tud, hanem hogy mennyi tokent termel ki valós terhelésen — és mennyiért. Az NVIDIA most a MLPerf Inference v6.0-ra hivatkozva próbálja megfogni ezt a nagyon is gyakorlati nézőpontot.

Mi történt

Az NVIDIA Developer Blog bejegyzése a MLPerf Inference v6.0 eredményeire épít. A MLPerf egy iparági benchmarkcsomag (MLCommons gondozásában), ami különböző modellek és futtatási helyzetek alatt méri az inferencia teljesítményt — vagyis azt, hogy egy rendszer milyen gyorsan tud „kiszolgálni” egy már betanított modellt.

A cég állítása szerint az NVIDIA Blackwell Ultra GPU-kra épülő rendszerek adták a legnagyobb áteresztőképességet (throughput) a legszélesebb modell- és szcenárió-készletben. Az NVIDIA azt is kiemeli, hogy 2018 óta összesen 291 MLPerf tréning- és inferencia-„győzelmük” van, amit a poszt szerint a többi beküldő együttvéve sem közelít meg.

Érdekes iparági jelzés az is, hogy a mostani körben az NVIDIA szerint 14 partner adott be eredményeket (ASUS, Cisco, CoreWeave, Dell, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb, QCT, Red Hat, Supermicro, Lambda) — a bejegyzés ezt úgy keretezi, mint a platform „ökoszisztéma-szintű” részvételét.

A v6.0 egyik lényegi eleme, hogy a benchmarkcsomag frissült: új modellek és új futtatási módok kerültek be, hogy jobban tükrözze a valós felhasználást. Az NVIDIA azt állítja, hogy csak az ő platformjuk adott be eredményt az összes újonnan hozzáadott modellre és szcenárióra, és mindegyikben a legjobb teljesítményt érte el.

Új tesztek a v6.0-ban (és mit jelentenek)

A poszt több új benchmarkot emel ki:

DeepSeek-R1 Interactive: a DeepSeek-R1 egy „reasoning” (következtető) LLM. Az „Interactive” szcenárió a beszélgetős, gyors reakciót igénylő használatot próbálja modellezni. A leírás szerint itt szigorúbb az elvárás: 5× gyorsabb minimális tokenráta és 1,3× rövidebb idő az első tokenig (TTFT) a „Server” szcenárióhoz képest.

Qwen3-VL-235B-A22B: egy vision-language (kép+szöveg) modell, 235 milliárd paraméterrel. Ez a poszt szerint az első multimodális modell a MLPerf Inference suite-ban. Két módon mérik: Offline és Server.

GPT-OSS-120B: az OpenAI által fejlesztett, 120 milliárd paraméteres, MoE (mixture-of-experts) reasoning LLM. A MoE-t képzeld el úgy, mint egy nagy „szakértői csapatot”, ahol egy vezérlő (router) mindig csak néhány releváns szakértőt kapcsol be kérdésenként — így a modell nagy, de futás közben nem feltétlenül mozgat meg mindent egyszerre.

WAN-2.2-T2V-A14B: szövegből videót generáló modell. Itt van egy single-stream mérés (egy kérés végponttól végpontig mért késleltetése), ahol alacsonyabb érték a jobb, és egy offline (batch) mérés, ahol a darabszám/sec számít.

DLRMv3: generatív ajánlórendszer-benchmark, amely leváltja a korábbi DLRM-DCNv2 tesztet. A poszt szerint transzformer-alapú, nagyobb és számításigényesebb, és offline + server szcenárióban fut.

A bejegyzés konkrét teljesítményadatokat is közöl (például DeepSeek-R1 esetén több millió token/sec offline módban, illetve Interactive módban is külön számokkal), és jelzi, hogy a WAN single-stream esetén a „secs” jellegű értéknél a kisebb a jobb.

A másik nagy állítás a szoftveroldalról jön: az NVIDIA szerint a TensorRT-LLM (az NVIDIA LLM-inferenciára optimalizált futtatókörnyezete) frissítései akár 2,7× teljesítménynövekedést is kihozhatnak ugyanazon Blackwell Ultra GPU-kon.

Konkrét példaként azt írják, hogy a GB300 NVL72 (tavaly bejelentett rendszer) a DeepSeek-R1 „server” szcenárióban akár 2,7× nagyobb token throughputot ért el, mint a hat hónappal korábbi, első beküldések idején — ugyanazzal az infrastruktúra- és fogyasztási kerettel. Ezt a gyorsulást a poszt szerint a partner Nebius érte el, és a cikk ezt az „open ecosystem” előnyeként tálalja (partnerek/ügyfelek a stack tetején optimalizálnak).

Miért fontos

Az NVIDIA üzenetének középpontjában a „tokenköltség” áll: mennyibe kerül egy token „legyártása” egy AI-gyárban (értsd: nagy inferencia-kapacitást termelő adatközpontban). Ez azért praktikus mérce, mert a bevétel (vagy a felhasználói élmény) tipikusan a kiszolgált tokenek számával, sebességével és késleltetésével függ össze — nem pedig azzal, hogy a GPU elméletben hány TFLOPS-ot tud.

A v6.0 frissítései pedig arra mutatnak rá, hogy a „valóság” gyorsan tolódik: már nem csak szöveg-LLM-eket kell mérni, hanem multimodális (kép+szöveg) és generatív média (szöveg→videó) modelleket is, ráadásul többféle kiszolgálási mintában. Gondolj rá úgy, mint egy étteremre: nem elég azt mondani, hogy a konyha óránként hány adag ételt tudna elméletben elkészíteni — az is számít, hogy mennyi idő alatt kapja meg a vendég az első fogást (TTFT), és mennyire stabil a kiszolgálás csúcsidőben (server/interaktív terhelés).

Mire figyelj

Ne keverd a throughputot a késleltetéssel: az „Offline” sokszor a maximális darabszám/sec-re optimalizál, míg az „Interactive” a gyors reagálást (például TTFT és minimális tokenráta). Vásárlásnál/tervezésnél döntsd el, melyik számít neked.
A szoftverfrissítések rejtett „ingyen teljesítményt” adhatnak: a poszt egyik fő állítása, hogy ugyanazon hardveren (GB300 NVL72) fél év alatt is jelentős gyorsulás jöhet ki. Érdemes követni, hogy ezek a nyereségek mennyire általánosíthatók a te stackeden (modell, kvantálás, batch, kontextushossz, stb.).
Az új MLPerf tesztek iránya jelzésértékű: a multimodális és a szöveg→videó benchmarkok megjelenése azt sugallja, hogy a következő infrastruktúra-döntéseknél nem csak LLM-chatet kell fejben tartani, hanem vegyes terheléseket is.
Ökoszisztéma vs. egyedi optimalizáció: az NVIDIA hangsúlyozza a partneri beküldések számát. Ha neked a gyors time-to-production és a széles támogatás fontos, ez előny lehet; ha viszont egy nagyon speciális workloadot futtatsz, nézd meg, van-e rá releváns, publikált eredmény (nem csak általános csúcsszám).

A cikk az NVIDIA Developer Blog bejegyzése alapján készült: „NVIDIA Platform Delivers Lowest Token Cost Enabled by Extreme Co-Design” (NVIDIA Developer Blog, https://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/).