Gemma 4: erős nyílt modellek, amik tényleg elfutnak a saját gépeden

A Google DeepMind bemutatta a Gemma 4-et: Apache 2.0 alatt kiadott, több méretben érkező nyílt modellcsaládot, amit kifejezetten érvelésre és „ügynökös” (tool-használó) munkafolyamatokra optimalizáltak. A cél: minél több képesség minél kevesebb hardveren — a mobilos/edge változatoktól a helyi fejlesztői gépekig.

Ha eddig a „nyílt modell” nálad azt jelentette, hogy vagy túl nagy a futtatáshoz, vagy túl gyenge a komolyabb feladatokhoz, a Gemma 4 pont ezt a rést próbálja betömni: több képességet ad kevesebb vasból.

Mi történt

A Google DeepMind bejelentette a Gemma 4 modellcsaládot, amit „a valaha volt legintelligensebb nyílt modelljeiknek” neveznek, és Apache 2.0 licenc alatt tesznek elérhetővé. Ez a licenc a gyakorlatban azt jelenti, hogy széles körben felhasználhatod (akár kereskedelmi termékben is), a feltételek jellemzően kiszámíthatóbbak, mint sok „kutatási célú” vagy erősen korlátozott licencnél.

A DeepMind szerint a Gemma 4 ugyanarra a kutatási és technológiai alapra épít, mint a Gemini 3, és úgy pozicionálják, mint „a legképességesebb modellcsalád, amit a saját hardvereden futtathatsz”. Négy méret érkezik: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) és 31B Dense.

A vállalat több konkrét állítást is kiemel a teljesítményről és a közösségi adoptálásról:

A Gemma első generációja óta a fejlesztők több mint 400 millió alkalommal töltötték le a modelleket, és a „Gemmaverse”-ben több mint 100 000 variáns jött létre.
A DeepMind az Arena AI „text leaderboard” alapján azt írja, hogy a 31B modell a #3, a 26B pedig a #6 helyen áll a nyílt modellek között, és a Gemma 4 „akár 20× nagyobb” modelleket is felülmúl.

Miért fontos

A Gemma 4 üzenete nem az, hogy „még egy chatbot”, hanem hogy a nyílt modellek egyre inkább munkagép-szerepbe kerülnek: helyben futó kódasszisztens, dokumentum- és repóelemzés, eszközöket hívó automatizmusok. Ehhez két dolog kell: jó érvelés és megbízható integráció.

A DeepMind ezért hangsúlyozza az „intelligence-per-parameter” (képesség/paraméter) irányt. Gondolj rá úgy, mint egy autóra: nem csak a motor mérete számít, hanem hogy mennyire hatékonyan alakítja át az üzemanyagot teljesítménnyé. Ha egy kisebb modell „okosabban” használja a kapacitását, akkor olcsóbb hardveren, alacsonyabb késleltetéssel és akár offline is használható.

A bejelentés másik fontos része az edge/mobil fókusz. Az E2B és E4B modelleknél a DeepMind kifejezetten az alacsony késleltetést (gyors válaszidő), a memória- és energiahatékonyságot (RAM és akkumulátor), valamint az ökoszisztéma-integrációt emeli ki. Ez a vonal azért érdekes, mert a „helyben futó AI” sok felhasználási esetben adatvédelmi és költségoldalon is előnyös: kevesebb felhőhívás, kevesebb adatmozgás, kiszámíthatóbb működés.

Mire figyelj

MoE vs Dense: mire jók valójában?

A Mixture of Experts (MoE) olyan, mintha több „szakértő” almodellből csak néhány dolgozna egyszerre. A DeepMind konkrétan azt írja, hogy a 26B MoE modell futtatáskor csak 3,8 milliárd paramétert aktivál, ami a cél szerint gyorsabb token/sec értéket (gyorsabb generálást) ad. A 31B Dense ezzel szemben „minden paramétert” használ, és a fókusza a nyers minőség és a finomhangolási alap.

A kontextusablak mérete: mikor számít?

A DeepMind szerint az edge modellek 128K, a nagyobb modellek pedig akár 256K kontextust is kezelnek. A kontextusablakot képzeld el úgy, mint a modell „munkamemóriáját”: minél nagyobb, annál több szöveget (például hosszú dokumentumot vagy teljes kódrészleteket) tudsz egyben betenni. A gyakorlatban ez akkor érték, ha repókat, specifikációkat, szerződéseket vagy hosszú jegyzeteket elemzel egy menetben.

„Agentic workflows” és a megbízhatóság kérdése

A Gemma 4 natív function-callingot, strukturált JSON kimenetet és system instruction támogatást említ. Ez magyarul: könnyebb olyan „ügynököt” építeni, ami nem csak beszél, hanem eszközöket is hív (API-kat, belső szolgáltatásokat), és kiszámítható formátumban ad választ. Érdemes figyelni, hogy a fejlesztői gyakorlatban ez mennyire stabil: a strukturált kimenet és az eszközhívás ott bukik el, ahol a modell „kicsúszik” a sémából.

On-device multimodal: kép, videó, (néhol) hang

A DeepMind szerint minden Gemma 4 modell natívan feldolgoz képet és videót, és az E2B/E4B natív audio bemenetet is kap (beszédfelismerés és megértés). Itt érdemes követni, hogy a valós alkalmazásokban milyen a minőség például OCR-ben (szöveg kiolvasása képből) vagy diagramok értelmezésében — ezek tipikusan ott hasznosak, ahol a „dokumentum” nem tiszta szöveg.

Hardverigény és helyi futtatás realitása

A DeepMind azt írja, hogy a 26B/31B bfloat16 súlyok elférnek egy 80GB NVIDIA H100-on, és kvantált (tömörített) verziók fogyasztói GPU-kon is futhatnak. A kvantálásra gondolj úgy, mint amikor egy nagy felbontású képet kisebbre tömörítesz: általában gyorsabb és kisebb lesz, de lehet minőségvesztés. A kérdés az, hogy melyik feladatnál fér bele ez a kompromisszum.

Forrásmegjelölés

Google DeepMind – „Gemma 4: Byte for byte, the most capable open models” (DeepMind blog)