Ha eddig a képgenerálásnál az volt a gondod, hogy „jó, de ezt most oldalanként kell összeraknom”, az OpenAI új lépése pont erre próbál választ adni: egy promptból nem csak egy képet, hanem egy egész csomagot is kérhetsz.

Mi történt

A WIRED beszámolója szerint az OpenAI kedden elindított egy új képalkotó AI-modellt ChatGPT Images 2.0 néven. A lényegi újdonság, hogy a modell egyetlen promptból több képet is tud generálni — a cikk példája szerint akár egy „teljes study bookletet”, vagyis egy többoldalas, egymáshoz illeszkedő tanulóanyag-szerű csomagot.

A másik hangsúlyos fejlesztés a szövegkezelés a képeken belül. Ez azt jelenti, hogy a modell nem csak rajzol „valami betűszerűt”, hanem kifejezetten arra van kihegyezve, hogy értelmezhető szöveget is tegyen a képre, ráadásul a WIRED szerint nem angol nyelveken is, például kínaiul és hindin.

A megjelenés globálisan elérhető a ChatGPT és a Codex felhasználóinak. A cikk azt is kiemeli, hogy a fizetős előfizetők egy erősebb verziót kapnak.

(Közérthetően: a „modell” itt az a betanított AI-rendszer, ami a leírásodból képet állít elő. Gondolj rá úgy, mint egy új „motorra” a képgenerátor alatt: ugyanazt a feladatot végzi, csak más képességekkel és korlátokkal.)

Miért fontos

Az, hogy egy promptból több képet kapsz, nem pusztán kényelmi funkció. Ez közelebb visz ahhoz a munkamódhoz, ahol a képgenerálás nem „egy darab poszter”, hanem összefüggő vizuális anyag: több oldal, több variáció, vagy egy komplett csomag, amit utána már csak finomítani kell. Ha valaha próbáltál prezentációt, oktatási anyagot vagy termékbemutatót összerakni képgenerátorral, akkor tudod, mennyire sok idő elmegy a konzisztencián (stílus, elrendezés, elemek ismétlődése).

A többnyelvű szöveg a képen pedig egy régóta fájó pont. A képgenerátorok gyakran elcsúsznak a feliratokkal: elgépelnek, értelmetlen karaktereket raknak ki, vagy a nem latin írásrendszereknél teljesen szétesnek. A WIRED alapján az OpenAI most kifejezetten erre is ráerősít — ami a mindennapokban ott jön elő, amikor nem csak „szép képet”, hanem használható vizuális kommunikációt szeretnél (pl. plakát, infografika, oktatókártya).

Mire figyelj

  1. Mennyire konzisztens a „több képes” kimenet? A nagy ígéret az összetartó csomag. Érdemes figyelni, mennyire tartja a modell ugyanazt a stílust és szerkezetet több képen át.
  2. A képen belüli szöveg minősége és hibaaránya. Különösen nem angol nyelveknél (a WIRED példái: kínai, hindi) érdemes tesztelni, hogy mennyire pontos a helyesírás, a karakterek és a tipográfia.
  3. Mit jelent a „erősebb verzió” a gyakorlatban? A cikk szerint a fizetős előfizetők jobb változatot kapnak; kérdés, hogy ez felbontásban, sebességben, részletességben, vagy a fenti képességek megbízhatóságában jelent-e nagy ugrást.
  4. Elérhetőség ChatGPT-ben és Codexben. Ha fejlesztői workflow-ban (Codex) használnád, figyeld, milyen könnyen illeszthető be automatizált folyamatokba, és mennyire stabil a kimenet ismételt futtatásoknál.

Forrásmegjelölés

WIRED AI – „OpenAI Beefs Up ChatGPT’s Image Generation Model”