A Google DeepMind bemutatta a Gemma 4-et: Apache 2.0 alatt kiadott, több méretben érkező nyílt modellcsaládot, amit kifejezetten érvelésre és „ügynökös” (tool-használó) munkafolyamatokra optimalizáltak. A cél: minél több képesség minél kevesebb hardveren — a mobilos/edge változatoktól a helyi fejlesztői gépekig.
AI Kávészünet Szerkesztőség • Publikálva: 2026. április 6.
Ha eddig a „nyílt modell” nálad azt jelentette, hogy vagy túl nagy a futtatáshoz, vagy túl gyenge a komolyabb feladatokhoz, a Gemma 4 pont ezt a rést próbálja betömni: több képességet ad kevesebb vasból.
Mi történt
A Google DeepMind bejelentette a
Gemma 4 modellcsaládot, amit „a valaha volt legintelligensebb nyílt modelljeiknek” neveznek, és
Apache 2.0 licenc alatt tesznek elérhetővé. Ez a licenc a gyakorlatban azt jelenti, hogy széles körben felhasználhatod (akár kereskedelmi termékben is), a feltételek jellemzően kiszámíthatóbbak, mint sok „kutatási célú” vagy erősen korlátozott licencnél.
A DeepMind szerint a Gemma 4 ugyanarra a kutatási és technológiai alapra épít, mint a Gemini 3, és úgy pozicionálják, mint „a legképességesebb modellcsalád, amit a saját hardvereden futtathatsz”. Négy méret érkezik: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) és 31B Dense.
A vállalat több konkrét állítást is kiemel a teljesítményről és a közösségi adoptálásról:
- A Gemma első generációja óta a fejlesztők több mint 400 millió alkalommal töltötték le a modelleket, és a „Gemmaverse”-ben több mint 100 000 variáns jött létre.
- A DeepMind az Arena AI „text leaderboard” alapján azt írja, hogy a 31B modell a #3, a 26B pedig a #6 helyen áll a nyílt modellek között, és a Gemma 4 „akár 20× nagyobb” modelleket is felülmúl.
Miért fontos
A Gemma 4 üzenete nem az, hogy „még egy chatbot”, hanem hogy
a nyílt modellek egyre inkább munkagép-szerepbe kerülnek: helyben futó kódasszisztens, dokumentum- és repóelemzés, eszközöket hívó automatizmusok. Ehhez két dolog kell:
jó érvelés és
megbízható integráció.
A DeepMind ezért hangsúlyozza az „intelligence-per-parameter” (képesség/paraméter) irányt. Gondolj rá úgy, mint egy autóra: nem csak a motor mérete számít, hanem hogy mennyire hatékonyan alakítja át az üzemanyagot teljesítménnyé. Ha egy kisebb modell „okosabban” használja a kapacitását, akkor olcsóbb hardveren, alacsonyabb késleltetéssel és akár offline is használható.
A bejelentés másik fontos része az edge/mobil fókusz. Az E2B és E4B modelleknél a DeepMind kifejezetten az alacsony késleltetést (gyors válaszidő), a memória- és energiahatékonyságot (RAM és akkumulátor), valamint az ökoszisztéma-integrációt emeli ki. Ez a vonal azért érdekes, mert a „helyben futó AI” sok felhasználási esetben adatvédelmi és költségoldalon is előnyös: kevesebb felhőhívás, kevesebb adatmozgás, kiszámíthatóbb működés.
Mire figyelj
- MoE vs Dense: mire jók valójában?
A
Mixture of Experts (MoE) olyan, mintha több „szakértő” almodellből csak néhány dolgozna egyszerre. A DeepMind konkrétan azt írja, hogy a 26B MoE modell futtatáskor
csak 3,8 milliárd paramétert aktivál, ami a cél szerint gyorsabb token/sec értéket (gyorsabb generálást) ad. A
31B Dense ezzel szemben „minden paramétert” használ, és a fókusza a nyers minőség és a finomhangolási alap.
- A kontextusablak mérete: mikor számít?
A DeepMind szerint az edge modellek
128K, a nagyobb modellek pedig akár
256K kontextust is kezelnek. A kontextusablakot képzeld el úgy, mint a modell „munkamemóriáját”: minél nagyobb, annál több szöveget (például hosszú dokumentumot vagy teljes kódrészleteket) tudsz egyben betenni. A gyakorlatban ez akkor érték, ha repókat, specifikációkat, szerződéseket vagy hosszú jegyzeteket elemzel egy menetben.
- „Agentic workflows” és a megbízhatóság kérdése
A Gemma 4 natív
function-callingot,
strukturált JSON kimenetet és
system instruction támogatást említ. Ez magyarul: könnyebb olyan „ügynököt” építeni, ami nem csak beszél, hanem eszközöket is hív (API-kat, belső szolgáltatásokat), és kiszámítható formátumban ad választ. Érdemes figyelni, hogy a fejlesztői gyakorlatban ez mennyire stabil: a strukturált kimenet és az eszközhívás ott bukik el, ahol a modell „kicsúszik” a sémából.
- On-device multimodal: kép, videó, (néhol) hang
A DeepMind szerint minden Gemma 4 modell natívan feldolgoz
képet és videót, és az E2B/E4B natív
audio bemenetet is kap (beszédfelismerés és megértés). Itt érdemes követni, hogy a valós alkalmazásokban milyen a minőség például
OCR-ben (szöveg kiolvasása képből) vagy diagramok értelmezésében — ezek tipikusan ott hasznosak, ahol a „dokumentum” nem tiszta szöveg.
- Hardverigény és helyi futtatás realitása
A DeepMind azt írja, hogy a 26B/31B bfloat16 súlyok elférnek egy
80GB NVIDIA H100-on, és kvantált (tömörített) verziók fogyasztói GPU-kon is futhatnak. A kvantálásra gondolj úgy, mint amikor egy nagy felbontású képet kisebbre tömörítesz: általában gyorsabb és kisebb lesz, de lehet minőségvesztés. A kérdés az, hogy melyik feladatnál fér bele ez a kompromisszum.
Forrásmegjelölés
Google DeepMind – „Gemma 4: Byte for byte, the most capable open models” (DeepMind blog)