Google kettéválasztja a TPU-t: külön chip tanításra és inferenciára

A Google Cloud két új, 8. generációs TPU-t jelentett be: a TPU 8t-t modelltréningre, a TPU 8i-t pedig inferenciára. A cég nagy ugrást ígér teljesítményben és költséghatékonyságban, miközben továbbra is Nvidia-chipeket is kínál — sőt, a hálózati hatékonyságon együtt is dolgoznak.

Ha úgy érzed, hogy az AI-szolgáltatások ára és elérhetősége egyre inkább a chipgyártók tempójától függ, ez a hír neked szól: a Google Cloud új TPU-kat dob piacra, de közben nem szakít az Nvidiával sem.

Mi történt

A Google Cloud bejelentette a saját fejlesztésű AI-chipjeinek, a Tensor Processing Unitoknak (TPU-knak) a 8. generációját — és azt is, hogy ezt a generációt két külön chipre bontják. A TPU 8t a modelltréningre (tanításra) van kihegyezve, míg a TPU 8i az inferenciára készül.

Az inferencia a modellek „éles” használata: amikor te vagy a felhasználó promptot adsz, és a rendszer válaszol, az tipikusan inferencia. Gondolj rá úgy, mint egy autóra: a tréning az, amikor megtervezik és legyártják a motort, az inferencia pedig a mindennapi közlekedés — sokkal gyakoribb, és másféle optimalizálást igényel.

A Google a korábbi generációkhoz képest több látványos számot is kommunikált: akár 3× gyorsabb tréning, 80%-kal jobb teljesítmény/dollár arány, és a képesség, hogy 1 millió+ TPU dolgozzon együtt egyetlen klaszterben. A vállalati üzenet lényege: több számítási kapacitás kevesebb energiával, és ebből következően alacsonyabb költséggel az ügyfeleknek.

Fontos árnyalat, hogy ez nem egy „teljes frontos” támadás az Nvidia ellen. A TechCrunch szerint a Google — a többi hyperscalerhez (Amazon, Microsoft) hasonlóan — a saját chipjeit kiegészítésként pozicionálja az Nvidia-alapú rendszerek mellé, nem azok kiváltására. Sőt, a Google azt is ígéri, hogy a felhőjében később idén elérhető lesz az Nvidia legújabb chipje, a Vera Rubin.

A két cég együttműködése sem áll meg a „mi is kínáljuk a vasatokat” szintjén: a Google szerint megállapodtak az Nvidiával, hogy közösen fejlesszenek olyan számítógépes hálózati megoldásokat, amelyekkel az Nvidia-rendszerek hatékonyabban futnak a Google Cloudban. Konkrétan a Falcon nevű, szoftveralapú adatközponti hálózati technológiát „izmosítják”, amit a Google 2023-ban nyílt forráskódúvá tett az Open Compute Project keretében.

Miért fontos

A TPU-k kettéválasztása (tréning vs. inferencia) egy praktikus iparági felismerést tükröz: másra van szükség akkor, amikor modelleket tanítasz, és másra akkor, amikor tömegesen kiszolgálod a felhasználói kéréseket. Az inferencia sok cégnél a folyamatos költségközpont — ha ott tudsz energia- és árhatékonyságot nyerni, az közvetlenül javíthatja a szolgáltatás árazását és skálázhatóságát.

Ugyanakkor a hír másik tanulsága, hogy a piac jelenleg nem „Nvidia vagy mindenki más” logikával működik. A Google egyszerre épít saját alternatívát és tartja fenn az Nvidia-ökoszisztémát a felhőjében. A TechCrunch idézi Patrick Moorhead elemzőt is, aki ironikusan megjegyezte: már 2016-ban azt gondolta, hogy a TPU rossz hír lehet az Nvidiának — ehhez képest az Nvidia ma közel 5 billió dolláros (trillion) piaci kapitalizációjú óriás.

Mire figyelj

Valós elérhetőség és árképzés: a beígért „80% jobb teljesítmény/dollár” akkor lesz igazán értelmezhető, amikor kiderül, milyen régiókban, milyen konfigurációkban és milyen feltételekkel lehet ténylegesen TPU 8t/8i kapacitáshoz jutni.
Mennyire lesz könnyű átállni: a saját chipek igazi kérdése nem csak a nyers teljesítmény, hanem hogy mennyi munkát jelent a fejlesztőknek és cégeknek a meglévő Nvidia-környezetekhez képest.
Falcon és a hálózat szerepe: a nagy AI-rendszereknél a hálózat gyakran a „rejtett szűk keresztmetszet”. Ha a Google–Nvidia együttműködés itt valódi előnyt hoz, az a felhős GPU-s futtatást is olcsóbbá/gyorsabbá teheti.
Nvidia Vera Rubin a Google Cloudban: érdemes figyelni, mikor és milyen formában jelenik meg, mert ez jelzi majd, mennyire marad a Google stratégiája „TPU + Nvidia” hibrid modell.