Mi történt
A WIRED beszámolója szerint az OpenAI kedden elindított egy új képalkotó AI-modellt ChatGPT Images 2.0 néven. A lényegi újdonság, hogy a modell egyetlen promptból több képet is tud generálni — a cikk példája szerint akár egy „teljes study bookletet”, vagyis egy többoldalas, egymáshoz illeszkedő tanulóanyag-szerű csomagot.A másik hangsúlyos fejlesztés a szövegkezelés a képeken belül. Ez azt jelenti, hogy a modell nem csak rajzol „valami betűszerűt”, hanem kifejezetten arra van kihegyezve, hogy értelmezhető szöveget is tegyen a képre, ráadásul a WIRED szerint nem angol nyelveken is, például kínaiul és hindin.
A megjelenés globálisan elérhető a ChatGPT és a Codex felhasználóinak. A cikk azt is kiemeli, hogy a fizetős előfizetők egy erősebb verziót kapnak.
(Közérthetően: a „modell” itt az a betanított AI-rendszer, ami a leírásodból képet állít elő. Gondolj rá úgy, mint egy új „motorra” a képgenerátor alatt: ugyanazt a feladatot végzi, csak más képességekkel és korlátokkal.)
Miért fontos
Az, hogy egy promptból több képet kapsz, nem pusztán kényelmi funkció. Ez közelebb visz ahhoz a munkamódhoz, ahol a képgenerálás nem „egy darab poszter”, hanem összefüggő vizuális anyag: több oldal, több variáció, vagy egy komplett csomag, amit utána már csak finomítani kell. Ha valaha próbáltál prezentációt, oktatási anyagot vagy termékbemutatót összerakni képgenerátorral, akkor tudod, mennyire sok idő elmegy a konzisztencián (stílus, elrendezés, elemek ismétlődése).A többnyelvű szöveg a képen pedig egy régóta fájó pont. A képgenerátorok gyakran elcsúsznak a feliratokkal: elgépelnek, értelmetlen karaktereket raknak ki, vagy a nem latin írásrendszereknél teljesen szétesnek. A WIRED alapján az OpenAI most kifejezetten erre is ráerősít — ami a mindennapokban ott jön elő, amikor nem csak „szép képet”, hanem használható vizuális kommunikációt szeretnél (pl. plakát, infografika, oktatókártya).
Mire figyelj
- Mennyire konzisztens a „több képes” kimenet? A nagy ígéret az összetartó csomag. Érdemes figyelni, mennyire tartja a modell ugyanazt a stílust és szerkezetet több képen át.
- A képen belüli szöveg minősége és hibaaránya. Különösen nem angol nyelveknél (a WIRED példái: kínai, hindi) érdemes tesztelni, hogy mennyire pontos a helyesírás, a karakterek és a tipográfia.
- Mit jelent a „erősebb verzió” a gyakorlatban? A cikk szerint a fizetős előfizetők jobb változatot kapnak; kérdés, hogy ez felbontásban, sebességben, részletességben, vagy a fenti képességek megbízhatóságában jelent-e nagy ugrást.
- Elérhetőség ChatGPT-ben és Codexben. Ha fejlesztői workflow-ban (Codex) használnád, figyeld, milyen könnyen illeszthető be automatizált folyamatokba, és mennyire stabil a kimenet ismételt futtatásoknál.
