Mi történt
A ZDNet AI szerzője a múlt héten megjelent ChatGPT Images 2.0-t vetette össze a Google Gemini képgeneráló változatával, amit a cikk következetesen „Nano Banana” néven említ. A háttér fontos: decemberben ugyanennek a tesztcsomagnak egy korábbi futtatásában a Nano Banana 93%, míg a ChatGPT 74% eredményt hozott – utóbbit részben az húzta le, hogy a modell bizonyos (popkulturális) kéréseket egyszerűen nem volt hajlandó teljesíteni.Most nem a régi számokhoz mértek, hanem a szerző teljesen újrafuttatta mindkét modell tesztjeit „a here and now” állapot rögzítéséhez. Az összesített eredmény a ZDNet szerint: ChatGPT Images 2.0: 97%, Gemini Nano Banana: 85%.
A cikkben bemutatott résztesztek alapján a különbségek nem csak „szebb képekben” jönnek ki, hanem abban is, hogy a modellek mennyire tudják megtartani a kérések finom korlátait. Gondolj erre úgy, mint egy fotós briefre: nem elég jó képet csinálni, azt kell csinálni, amit kértél – és nem azt, amit a modell „kitalál helyetted”.
Konkrét példák a ZDNet tesztjeiből
1) „Admiral photo recontextualization” (15 pont) A feladat: egy meglévő portrét úgy „átöltöztetni” és környezetbe helyezni, hogy a személy arca ne változzon, a háttér pedig egy repülőgép-hordozó hídja legyen.- ChatGPT Images 2.0: 14/15
- Gemini Nano Banana: 12/15
2) Fekete-fehér fotó restaurálása (15 pont) Itt a feladat klasszikus képtisztítás: karcok, por, foltok javítása, élesítés „túlsimítás” nélkül, és a korszakjelleg megőrzése.
- ChatGPT Images 2.0: 15/15
- Gemini Nano Banana: 15/15
3) Restaurálás + színezés (20 pont) A feladat: sérült fekete-fehér fotó helyreállítása és realisztikus színezése, „történelmileg hihető” színekkel és természetes fényekkel.
- ChatGPT Images 2.0: 19/20
- Gemini Nano Banana: 10/20
Miért fontos
Egyrészt azért, mert a képgenerálásnál egyre kevésbé az a kérdés, hogy „tud-e szépet rajzolni”, hanem hogy tud-e megbízhatóan szerkeszteni és rekonstruálni. A restaurálás, a szöveg megjelenítése képen, a személyazonosság (arc) megőrzése mind olyan feladat, ami a hétköznapi használatban is előjön: termékfotó-variációk, régi családi képek rendbetétele, egyszerű kreatívok készítése, vagy akár csak egy portré „átöltöztetése” úgy, hogy ne változzon felismerhetetlenné.Másrészt a ZDNet tesztjei rávilágítanak egy kényes pontra: a modellek nemcsak generálnak, hanem döntenek is helyetted – például „kijavítanak” arcot, hozzáadnak részleteket, megváltoztatnak arckifejezést. Ha a célod pont az eredeti megőrzése (pl. igazolványkép-jelleg, családi fotó, dokumentáció), akkor ez nem kreatív extra, hanem hiba.
Mire figyelj
- Ne csak az összpontszámot nézd, hanem a feladattípust. A ZDNet alapján a ChatGPT Images 2.0 különösen erős a restaurálásban és a kontextus megtartásában, de a „szöveg a képen” még így is csúszhat (lásd „DEFNSE”).
- Az „azonosságmegőrzés” kritikus. Ha portrét szerkesztesz, teszteld külön: „ne változzon az arc” típusú kéréseknél melyik modell mennyire tartja a kereteket.
- A név- és verziókavarás valós probléma. A cikk maga is megjegyzi, hogy mindkét cég profitálna jobb elnevezésekből. Gyakorlatban ez azt jelenti: mindig ellenőrizd, pontosan melyik módot/modellt használod (képgenerálás vs. más multimodális mód), mert a képességek és korlátozások eltérhetnek.
