Gemini 3.1 Flash-Lite: olcsóbb, gyorsabb modell nagy terhelésre

A Google DeepMind bemutatta a Gemini 3.1 Flash-Lite-ot, a Gemini 3 széria eddigi leggyorsabb és legköltséghatékonyabb modelljét. A cél a nagy volumenű, alacsony késleltetésű fejlesztői felhasználás, preview eléréssel a Gemini API-n (AI Studio) és vállalatoknak Vertex AI-on.

Ha olyan AI-funkciót építesz, amit sok felhasználó nyomkod egyszerre (chat, fordítás, moderálás, ügyfélszolgálat), akkor a modell „okossága” mellett a késleltetés és az ár lesz a szűk keresztmetszet. A DeepMind most kifejezetten erre a problémára hozott egy új Gemini-modellt.

Mi történt

A Google DeepMind bejelentette a Gemini 3.1 Flash-Lite modellt, amit a vállalat a Gemini 3 sorozat leggyorsabb és legköltséghatékonyabb tagjaként pozicionál. A modell nagy volumenű fejlesztői terhelésre készült, és a DeepMind szerint „jó minőséget” ad a saját árszintjén.

A Flash-Lite preview formában indul: fejlesztőknek a Gemini API-n keresztül Google AI Studio-ban, vállalati ügyfeleknek pedig Vertex AI-ban érhető el.

Árazásban a DeepMind konkrét számokat is közölt: $0.25 / 1M input token és $1.50 / 1M output token. (A token nagyjából szövegrészletet jelent: gondolj rá úgy, mint a modell „betűpénzére” — a bemenet és a kimenet tokenekben mérhető, és ezek után fizetsz.)

Teljesítményre a cég az Artificial Analysis benchmarkját idézi: a Flash-Lite a korábbi Gemini 2.5 Flash modellhez képest 2,5× gyorsabb „Time to First Answer Token” értéket hoz (ez az első válasz-karakter megérkezéséig eltelt idő — magyarul: mennyire gyorsan kezd el válaszolni), és 45%-kal gyorsabb kimeneti sebességet (mennyi szöveget „darál ki” adott idő alatt), miközben a minőség „hasonló vagy jobb”.

A DeepMind több minőségi mérőszámot is felsorol: a modell 1432 Elo pontot ért el az Arena.ai ranglistán (az Elo egy, a „párbaj” jellegű összehasonlításokból származtatott pontszám, mint a sakknál: magasabb = a tesztben gyakrabban preferált válaszok). Emellett kiemelnek két benchmarkot is: 86,9% GPQA Diamond és 76,8% MMMU Pro. (Ezek olyan tesztek, amelyek a következtetési és multimodális képességeket mérik — a multimodális azt jelenti, hogy a modell nem csak szöveget, hanem többféle információtípust is tud értelmezni, például képet és szöveget együtt.)

Miért fontos

A Flash-Lite üzenete nem az, hogy „mindenki számára a legerősebb modell”, hanem az, hogy skálázhatóan lehet AI-t futtatni: sok kérés, alacsony válaszidő, kontrollált költség. Ez a gyakorlatban ott számít, ahol a felhasználói élmény a késleltetésen múlik (például élő chat, valós idejű asszisztens, keresés jellegű funkciók), és ahol a költség nem elméleti, hanem napi szinten összeadódik.

Érdekes részlet, hogy a modellhez „alapból” érkezik a thinking levels az AI Studio-ban és Vertex AI-ban. Ez fejlesztői szempontból egy csúszka a gondolkodás és a költség/latencia között: gondolj rá úgy, mint amikor egy autóban a sport/eco mód között váltasz. Több „gondolkodás” általában jobb érvelést adhat, de drágább és lassabb lehet; kevesebb gondolkodás gyorsabb és olcsóbb, de kevésbé mély.

Mire figyelj

Preview korlátok és stabilitás: éles rendszernél számíts arra, hogy a preview elérésnél lehetnek változások (kvóták, verziók, viselkedés finomhangolása).
A „thinking levels” gyakorlati hatása: érdemes mérni, hogy a te feladataidnál hol van az a pont, ahol a plusz gondolkodás már nem hoz arányos minőségi nyereséget, viszont növeli a késleltetést és a költséget.
Benchmark vs. saját feladat: a GPQA/MMMU és az Arena.ai jó támpont, de a döntést a saját adataiddal érdemes meghozni (például moderálási pontosság, fordítási hibaarány, instrukciókövetés a te domain-nyelveden).
Valós idejű élményhez latencia-mérés: a DeepMind a „Time to First Answer Token”-t hangsúlyozza — ha UI-ban jeleníted meg a választ, ez sokszor fontosabb, mint a teljes válaszidő.

Forrásmegjelölés

Google DeepMind – Gemini 3.1 Flash-Lite: Built for intelligence at scale (https://deepmind.google/blog/gemini-3-1-flash-lite-built-for-intelligence-at-scale/)