Ha AI-t futtatsz (vagy csak fizeted a számlát érte), nem az a kérdés, hogy egy GPU papíron mennyit tud, hanem hogy mennyi tokent termel ki valós terhelésen — és mennyiért. Az NVIDIA most a MLPerf Inference v6.0-ra hivatkozva próbálja megfogni ezt a nagyon is gyakorlati nézőpontot.

Mi történt

Az NVIDIA Developer Blog bejegyzése a MLPerf Inference v6.0 eredményeire épít. A MLPerf egy iparági benchmarkcsomag (MLCommons gondozásában), ami különböző modellek és futtatási helyzetek alatt méri az inferencia teljesítményt — vagyis azt, hogy egy rendszer milyen gyorsan tud „kiszolgálni” egy már betanított modellt.

A cég állítása szerint az NVIDIA Blackwell Ultra GPU-kra épülő rendszerek adták a legnagyobb áteresztőképességet (throughput) a legszélesebb modell- és szcenárió-készletben. Az NVIDIA azt is kiemeli, hogy 2018 óta összesen 291 MLPerf tréning- és inferencia-„győzelmük” van, amit a poszt szerint a többi beküldő együttvéve sem közelít meg.

Érdekes iparági jelzés az is, hogy a mostani körben az NVIDIA szerint 14 partner adott be eredményeket (ASUS, Cisco, CoreWeave, Dell, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb, QCT, Red Hat, Supermicro, Lambda) — a bejegyzés ezt úgy keretezi, mint a platform „ökoszisztéma-szintű” részvételét.

A v6.0 egyik lényegi eleme, hogy a benchmarkcsomag frissült: új modellek és új futtatási módok kerültek be, hogy jobban tükrözze a valós felhasználást. Az NVIDIA azt állítja, hogy csak az ő platformjuk adott be eredményt az összes újonnan hozzáadott modellre és szcenárióra, és mindegyikben a legjobb teljesítményt érte el.

Új tesztek a v6.0-ban (és mit jelentenek)

A poszt több új benchmarkot emel ki: A bejegyzés konkrét teljesítményadatokat is közöl (például DeepSeek-R1 esetén több millió token/sec offline módban, illetve Interactive módban is külön számokkal), és jelzi, hogy a WAN single-stream esetén a „secs” jellegű értéknél a kisebb a jobb.

A másik nagy állítás a szoftveroldalról jön: az NVIDIA szerint a TensorRT-LLM (az NVIDIA LLM-inferenciára optimalizált futtatókörnyezete) frissítései akár 2,7× teljesítménynövekedést is kihozhatnak ugyanazon Blackwell Ultra GPU-kon.

Konkrét példaként azt írják, hogy a GB300 NVL72 (tavaly bejelentett rendszer) a DeepSeek-R1 „server” szcenárióban akár 2,7× nagyobb token throughputot ért el, mint a hat hónappal korábbi, első beküldések idején — ugyanazzal az infrastruktúra- és fogyasztási kerettel. Ezt a gyorsulást a poszt szerint a partner Nebius érte el, és a cikk ezt az „open ecosystem” előnyeként tálalja (partnerek/ügyfelek a stack tetején optimalizálnak).

Miért fontos

Az NVIDIA üzenetének középpontjában a „tokenköltség” áll: mennyibe kerül egy token „legyártása” egy AI-gyárban (értsd: nagy inferencia-kapacitást termelő adatközpontban). Ez azért praktikus mérce, mert a bevétel (vagy a felhasználói élmény) tipikusan a kiszolgált tokenek számával, sebességével és késleltetésével függ össze — nem pedig azzal, hogy a GPU elméletben hány TFLOPS-ot tud.

A v6.0 frissítései pedig arra mutatnak rá, hogy a „valóság” gyorsan tolódik: már nem csak szöveg-LLM-eket kell mérni, hanem multimodális (kép+szöveg) és generatív média (szöveg→videó) modelleket is, ráadásul többféle kiszolgálási mintában. Gondolj rá úgy, mint egy étteremre: nem elég azt mondani, hogy a konyha óránként hány adag ételt tudna elméletben elkészíteni — az is számít, hogy mennyi idő alatt kapja meg a vendég az első fogást (TTFT), és mennyire stabil a kiszolgálás csúcsidőben (server/interaktív terhelés).

Mire figyelj

  1. Ne keverd a throughputot a késleltetéssel: az „Offline” sokszor a maximális darabszám/sec-re optimalizál, míg az „Interactive” a gyors reagálást (például TTFT és minimális tokenráta). Vásárlásnál/tervezésnél döntsd el, melyik számít neked.
  2. A szoftverfrissítések rejtett „ingyen teljesítményt” adhatnak: a poszt egyik fő állítása, hogy ugyanazon hardveren (GB300 NVL72) fél év alatt is jelentős gyorsulás jöhet ki. Érdemes követni, hogy ezek a nyereségek mennyire általánosíthatók a te stackeden (modell, kvantálás, batch, kontextushossz, stb.).
  3. Az új MLPerf tesztek iránya jelzésértékű: a multimodális és a szöveg→videó benchmarkok megjelenése azt sugallja, hogy a következő infrastruktúra-döntéseknél nem csak LLM-chatet kell fejben tartani, hanem vegyes terheléseket is.
  4. Ökoszisztéma vs. egyedi optimalizáció: az NVIDIA hangsúlyozza a partneri beküldések számát. Ha neked a gyors time-to-production és a széles támogatás fontos, ez előny lehet; ha viszont egy nagyon speciális workloadot futtatsz, nézd meg, van-e rá releváns, publikált eredmény (nem csak általános csúcsszám).

A cikk az NVIDIA Developer Blog bejegyzése alapján készült: „NVIDIA Platform Delivers Lowest Token Cost Enabled by Extreme Co-Design” (NVIDIA Developer Blog, https://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/).