Gemma 4: nyílt multimodális modellek, amik tényleg futnak eszközön is

A Hugging Face bemutatta a Gemma 4-et: Apache 2 licencű, multimodális (kép–szöveg, a kisebbeknél hang is) modelleket, amiket kifejezetten széles eszköz- és könyvtártámogatásra terveztek. A család 2.3B-től 31B-ig skálázódik, hosszú kontextusablakkal, és a beszámoló szerint erős szöveges teljesítményt hoz a nyílt mezőnyben.

Ha eddig a „multimodális” és az „eszközön futtatható” ritkán fért meg egy mondatban, a Gemma 4 pont erre próbál választ adni: nyílt licenc, hosszú kontextus, és több bemeneti mód – úgy, hogy közben a gyakorlati deploy sem utólagos gondolat.

Mi történt

A Hugging Face blogposztja szerint megérkezett a Gemma 4 modellcsalád, amelyet „truly open” módon, Apache 2 licenccel adnak ki. A cikk állítása szerint a modellek minősége erős (a poszt LMArena-alapú becsült pontszámokat is említ), és a család célja, hogy széles körben használható legyen a fejlesztői eszközláncokban.

A Gemma 4 multimodális: a modellek képet (és videót) + szöveget tudnak bemenetként kezelni, és szöveget generálnak válaszként. A két kisebb változat – E2B és E4B – emellett hangbemenetet is támogat. A poszt kiemeli, hogy az új verzió az előző Gemma-családokból átvett megoldásokat „kattintja össze” egy kompatibilis, hosszú kontextusra és kvantálásra (erről később) alkalmas csomaggá, miközben bizonytalan vagy túl komplex elemeket (például az említett Altupot) kihagy.

A Hugging Face szerint a megjelenés nem csak modellfájlokról szól: együttműködtek a Google-lel és a közösséggel, hogy a Gemma 4 több futtatási környezetben is elérhető legyen, például transformers, llama.cpp, MLX, WebGPU és Rust ökoszisztémákban.

Modellek és méretek (a poszt táblázata alapján)

Gemma 4 E2B: 2.3B „effective” (5.1B embeddingekkel), 128k kontextus, base + instruction-tuned (IT)
Gemma 4 E4B: 4.5B „effective” (8B embeddingekkel), 128k kontextus, base + IT
Gemma 4 31B: 31B dense, 256k kontextus, base + IT
Gemma 4 26B A4B: mixture-of-experts (MoE), 26B összparaméter / 4B aktív, 256k kontextus, base + IT

A poszt benchmark-részéből kiemel egy fontos állítást: a 31B dense modell becsült LMArena (text-only) pontszáma 1452, míg a 26B MoE 1441 körül van úgy, hogy egyszerre csak 4B paraméter „dolgozik”.

Miért fontos

A Gemma 4 üzenete nem az, hogy „még egy modell”, hanem hogy a nyílt licenc + multimodalitás + deployolhatóság együtt jelenik meg. Az Apache 2 licenc gyakorlati szempontból sok csapatnak kényelmes: általában egyszerűbb vállalati környezetben is használni és termékbe építeni, mint szigorúbb feltételekkel.

A másik kulcs a hosszú kontextus (128k/256k token). Gondolj rá úgy, mint egy nagyon hosszú „munkamemóriára”: több dokumentumot, hosszabb beszélgetést, nagyobb kódrészletet lehet egyben a modell elé tenni anélkül, hogy darabolni kellene. Ez nem csodaszer (a hosszú kontextus kezelése drága és a relevancia így is kihívás), de sok „ügynökös” (agentic) és dokumentum-alapú feladatnál tényleg számít.

A poszt külön hangsúlyozza, hogy a modell kvantálásra ideális. A kvantálás leegyszerűsítve olyan, mintha a modell „számait” kisebb pontossággal tárolnánk: kevesebb memória, gyakran gyorsabb futás – cserébe némi minőségvesztés kockázatával. Ha a cél az on-device használat (laptop, mobil, edge), ez tipikusan a belépő.

Mire figyelj

Melyik multimodalitás melyik modellben van? A poszt szerint minden modell támogat képet+szöveget, de hangot csak az E2B és E4B. Ha audio a cél, ez rögtön szűkíti a választást.
„Effective” paraméterszám vs. valós költség: a táblázat külön beszél „effective” és „embeddingekkel együtt” méretről, illetve a MoE-nél „összes” és „aktív” paraméterről. Ez a gyakorlatban a memória- és sebességtervezésnél fontos: nem mindegy, mit kell betölteni és mit kell ténylegesen számolni.
Képfeldolgozás beállítható tokenbüdzsével: a vision encoder a poszt szerint megtartja a képarányt, és több „token budgetet” tud (70/140/280/560/1120). Ez lényegében egy minőség–sebesség–memória csúszka: több képtoken általában részletesebb vizuális reprezentációt ad, de drágább.
Ökoszisztéma-támogatás érettsége: jól hangzik, hogy transformers/llama.cpp/MLX/WebGPU/Rust „you name it”, de a valóságban a multimodális pipeline-ok (különösen audio+vision együtt) implementációs részletei könyvtáranként eltérhetnek. Érdemes figyelni a konkrét példakódokat és demókat, amiket a poszt ígér.

Forrásmegjelölés

Hugging Face Blog – „Welcome Gemma 4: Frontier multimodal intelligence on device” (https://huggingface.co/blog/gemma4)