Mi történt
A Hugging Face blogposztja szerint megérkezett a Gemma 4 modellcsalád, amelyet „truly open” módon, Apache 2 licenccel adnak ki. A cikk állítása szerint a modellek minősége erős (a poszt LMArena-alapú becsült pontszámokat is említ), és a család célja, hogy széles körben használható legyen a fejlesztői eszközláncokban.A Gemma 4 multimodális: a modellek képet (és videót) + szöveget tudnak bemenetként kezelni, és szöveget generálnak válaszként. A két kisebb változat – E2B és E4B – emellett hangbemenetet is támogat. A poszt kiemeli, hogy az új verzió az előző Gemma-családokból átvett megoldásokat „kattintja össze” egy kompatibilis, hosszú kontextusra és kvantálásra (erről később) alkalmas csomaggá, miközben bizonytalan vagy túl komplex elemeket (például az említett Altupot) kihagy.
A Hugging Face szerint a megjelenés nem csak modellfájlokról szól: együttműködtek a Google-lel és a közösséggel, hogy a Gemma 4 több futtatási környezetben is elérhető legyen, például transformers, llama.cpp, MLX, WebGPU és Rust ökoszisztémákban.
Modellek és méretek (a poszt táblázata alapján)
- Gemma 4 E2B: 2.3B „effective” (5.1B embeddingekkel), 128k kontextus, base + instruction-tuned (IT)
- Gemma 4 E4B: 4.5B „effective” (8B embeddingekkel), 128k kontextus, base + IT
- Gemma 4 31B: 31B dense, 256k kontextus, base + IT
- Gemma 4 26B A4B: mixture-of-experts (MoE), 26B összparaméter / 4B aktív, 256k kontextus, base + IT
Miért fontos
A Gemma 4 üzenete nem az, hogy „még egy modell”, hanem hogy a nyílt licenc + multimodalitás + deployolhatóság együtt jelenik meg. Az Apache 2 licenc gyakorlati szempontból sok csapatnak kényelmes: általában egyszerűbb vállalati környezetben is használni és termékbe építeni, mint szigorúbb feltételekkel.A másik kulcs a hosszú kontextus (128k/256k token). Gondolj rá úgy, mint egy nagyon hosszú „munkamemóriára”: több dokumentumot, hosszabb beszélgetést, nagyobb kódrészletet lehet egyben a modell elé tenni anélkül, hogy darabolni kellene. Ez nem csodaszer (a hosszú kontextus kezelése drága és a relevancia így is kihívás), de sok „ügynökös” (agentic) és dokumentum-alapú feladatnál tényleg számít.
A poszt külön hangsúlyozza, hogy a modell kvantálásra ideális. A kvantálás leegyszerűsítve olyan, mintha a modell „számait” kisebb pontossággal tárolnánk: kevesebb memória, gyakran gyorsabb futás – cserébe némi minőségvesztés kockázatával. Ha a cél az on-device használat (laptop, mobil, edge), ez tipikusan a belépő.
Mire figyelj
- Melyik multimodalitás melyik modellben van? A poszt szerint minden modell támogat képet+szöveget, de hangot csak az E2B és E4B. Ha audio a cél, ez rögtön szűkíti a választást.
- „Effective” paraméterszám vs. valós költség: a táblázat külön beszél „effective” és „embeddingekkel együtt” méretről, illetve a MoE-nél „összes” és „aktív” paraméterről. Ez a gyakorlatban a memória- és sebességtervezésnél fontos: nem mindegy, mit kell betölteni és mit kell ténylegesen számolni.
- Képfeldolgozás beállítható tokenbüdzsével: a vision encoder a poszt szerint megtartja a képarányt, és több „token budgetet” tud (70/140/280/560/1120). Ez lényegében egy minőség–sebesség–memória csúszka: több képtoken általában részletesebb vizuális reprezentációt ad, de drágább.
- Ökoszisztéma-támogatás érettsége: jól hangzik, hogy transformers/llama.cpp/MLX/WebGPU/Rust „you name it”, de a valóságban a multimodális pipeline-ok (különösen audio+vision együtt) implementációs részletei könyvtáranként eltérhetnek. Érdemes figyelni a konkrét példakódokat és demókat, amiket a poszt ígér.
