ChatGPT Images 2.0 vs. Gemini „Nano Banana”: meglepő fordítás a teszten

A ZDNet újra lefuttatta a saját képgenerátor-tesztjeit, és ezúttal a ChatGPT Images 2.0 nyert: 97%-ot kapott, míg a Google-féle Gemini „Nano Banana” 85%-ot. A résztesztekből az látszik, hogy a ChatGPT különösen a fotó-restaurálás és a kontextus megtartása terén erősödött nagyot.

Ha eddig úgy érezted, hogy a képgenerálásban a Google-féle Gemini (a ZDNet cikkben „Nano Banana”) kényelmesen előz, a mostani újramérés alapján érdemes frissíteni a képet: a ChatGPT Images 2.0 látványosan felzárkózott – sőt, át is vette a vezetést.

Mi történt

A ZDNet AI szerzője a múlt héten megjelent ChatGPT Images 2.0-t vetette össze a Google Gemini képgeneráló változatával, amit a cikk következetesen „Nano Banana” néven említ. A háttér fontos: decemberben ugyanennek a tesztcsomagnak egy korábbi futtatásában a Nano Banana 93%, míg a ChatGPT 74% eredményt hozott – utóbbit részben az húzta le, hogy a modell bizonyos (popkulturális) kéréseket egyszerűen nem volt hajlandó teljesíteni.

Most nem a régi számokhoz mértek, hanem a szerző teljesen újrafuttatta mindkét modell tesztjeit „a here and now” állapot rögzítéséhez. Az összesített eredmény a ZDNet szerint: ChatGPT Images 2.0: 97%, Gemini Nano Banana: 85%.

A cikkben bemutatott résztesztek alapján a különbségek nem csak „szebb képekben” jönnek ki, hanem abban is, hogy a modellek mennyire tudják megtartani a kérések finom korlátait. Gondolj erre úgy, mint egy fotós briefre: nem elég jó képet csinálni, azt kell csinálni, amit kértél – és nem azt, amit a modell „kitalál helyetted”.

Konkrét példák a ZDNet tesztjeiből

1) „Admiral photo recontextualization” (15 pont) A feladat: egy meglévő portrét úgy „átöltöztetni” és környezetbe helyezni, hogy a személy arca ne változzon, a háttér pedig egy repülőgép-hordozó hídja legyen.

ChatGPT Images 2.0: 14/15
Gemini Nano Banana: 12/15

Mindkét modell hozott egy „felszínen oké” admirális-egyenruhát, de a rangjelzések és részletek keveredtek, ezért mindkettő pontot vesztett. A nagy különbség ott jött ki, hogy a ChatGPT jobban megtartotta az eredeti arcot, míg a Gemini változata a szerző leírása szerint furcsa vigyort és szakáll-módosítást is hozott.

2) Fekete-fehér fotó restaurálása (15 pont) Itt a feladat klasszikus képtisztítás: karcok, por, foltok javítása, élesítés „túlsimítás” nélkül, és a korszakjelleg megőrzése.

ChatGPT Images 2.0: 15/15
Gemini Nano Banana: 15/15

A ZDNet szerint mindkettő korrekt munkát végzett; a ChatGPT kicsit részletesebbnek tűnt, a Gemini kicsit kevésbé élesnek, de pontlevonást egyik sem kapott.

3) Restaurálás + színezés (20 pont) A feladat: sérült fekete-fehér fotó helyreállítása és realisztikus színezése, „történelmileg hihető” színekkel és természetes fényekkel.

ChatGPT Images 2.0: 19/20
Gemini Nano Banana: 10/20

A ZDNet leírása alapján a ChatGPT itt kifejezetten erős volt: például a jármű oldalán lévő „RADIOLOGICAL DEFENSE” feliratot jól kezelte, bár a hátulján a „DEFENSE” hibásan jelent meg („DEFNSE”), ezért járt a mínusz egy pont. A Gemini viszont ebben a tesztben jóval gyengébb pontszámot kapott.

Miért fontos

Egyrészt azért, mert a képgenerálásnál egyre kevésbé az a kérdés, hogy „tud-e szépet rajzolni”, hanem hogy tud-e megbízhatóan szerkeszteni és rekonstruálni. A restaurálás, a szöveg megjelenítése képen, a személyazonosság (arc) megőrzése mind olyan feladat, ami a hétköznapi használatban is előjön: termékfotó-variációk, régi családi képek rendbetétele, egyszerű kreatívok készítése, vagy akár csak egy portré „átöltöztetése” úgy, hogy ne változzon felismerhetetlenné.

Másrészt a ZDNet tesztjei rávilágítanak egy kényes pontra: a modellek nemcsak generálnak, hanem döntenek is helyetted – például „kijavítanak” arcot, hozzáadnak részleteket, megváltoztatnak arckifejezést. Ha a célod pont az eredeti megőrzése (pl. igazolványkép-jelleg, családi fotó, dokumentáció), akkor ez nem kreatív extra, hanem hiba.

Mire figyelj

Ne csak az összpontszámot nézd, hanem a feladattípust. A ZDNet alapján a ChatGPT Images 2.0 különösen erős a restaurálásban és a kontextus megtartásában, de a „szöveg a képen” még így is csúszhat (lásd „DEFNSE”).
Az „azonosságmegőrzés” kritikus. Ha portrét szerkesztesz, teszteld külön: „ne változzon az arc” típusú kéréseknél melyik modell mennyire tartja a kereteket.
A név- és verziókavarás valós probléma. A cikk maga is megjegyzi, hogy mindkét cég profitálna jobb elnevezésekből. Gyakorlatban ez azt jelenti: mindig ellenőrizd, pontosan melyik módot/modellt használod (képgenerálás vs. más multimodális mód), mert a képességek és korlátozások eltérhetnek.