OpenAI új Realtime hangmodellekkel bővít: beszél, fordít, jegyzetel

OpenAI új, valós idejű (Realtime) hangintelligencia-funkciókat tett elérhetővé az API-jában: beszélgető hangmodellt, élő fordítást és azonnali átiratot. A csomag célja, hogy a hangalapú appok ne csak „kérdés–válasz” módon működjenek, hanem a beszélgetés közben is tudjanak értelmezni és cselekedni.

A hangalapú felületek eddig gyakran úgy viselkedtek, mint egy walkie-talkie: mondasz valamit, vársz, kapsz választ. Most az a cél, hogy a beszélgetés közben is „dolgozzon” a rendszer: figyeljen, értelmezzen, fordítson, leírjon — és közben haladjon veled.

Mi történt

OpenAI több új, valós idejű hangintelligencia-képességet adott az API-jához, kifejezetten fejlesztőknek, akik beszélgetni tudó, átíró és fordító alkalmazásokat akarnak építeni. Ezek mind a Realtime API részeként érhetők el, vagyis olyan integrációra vannak kitalálva, ahol a hang feldolgozása nem utólag történik, hanem a párbeszéd „folyásában”.

Az újdonságok három fő elemből állnak. A GPT‑Realtime‑2 egy beszélgető hangmodell, amely „életszerű” hangszimulációt céloz, és a korábbi verzióhoz képest GPT‑5‑szintű következtetési képességekre (reasoning) épít. Ezt úgy érdemes elképzelni, mint amikor nem csak visszamondja, amit kérsz, hanem több lépésben átgondolja a kérést, összerakja a kontextust, és ennek megfelelően válaszol. Emellett jön a GPT‑Realtime‑Translate, ami valós idejű fordítást ad úgy, hogy tartani tudja a beszélgetés tempóját: több mint 70 bemeneti nyelvet ért, és 13 kimeneti nyelvre tud visszafordítani. A harmadik a GPT‑Realtime‑Whisper, ami élő speech-to-text (beszédből szöveg) átírást ad, tehát a szöveg akkor keletkezik, amikor a beszélgetés zajlik, nem utólag.

Miért fontos

A hangos AI akkor lesz igazán használható a hétköznapokban és a céges folyamatokban, ha nem „megállítja” a beszélgetést feldolgozás közben. A valós idejű fordítás például olyan, mint egy tolmács, aki nem a mondat végén kezd el gondolkodni, hanem együtt lélegzik a beszélővel. Az élő átírás pedig nem csak jegyzetelés: alapja lehet kereshető meeting-archívumnak, ügyfélszolgálati összefoglalóknak vagy események feliratozásának. A fejlesztőknek az is praktikus, hogy a modellek árazása a feladathoz igazodik: a fordítás és az átírás percdíjas, míg a beszélgető hangmodell tokenalapon számláz.

Mire figyelj

Nyelvi lefedettség vs. valós igény: a 70+ bemeneti és 13 kimeneti nyelv jól hangzik, de a terméktervezésnél az számít, a te piacodon mely nyelvek kimeneti oldalon is támogatottak.
Költségmodell: percdíj (fordítás, átírás) vs. token (Realtime‑2). Ha hosszú beszélgetéseket futtatsz, a költségprofil teljesen más lesz, mint rövid, célzott interakcióknál.
Visszaélés és védelem: a hangalapú rendszerek könnyen csúsznak spambe vagy csalásba (például automatizált hívások). A TechCrunch AI anyaga alapján a rendszerbe olyan „triggerek” kerültek, amelyek megállíthatják a beszélgetést, ha az káros tartalmi irányelveket sért — fejlesztőként érdemes figyelni, hogyan hat ez a felhasználói élményre, és milyen esetekben téveszthet.
„Cselekvés” a beszélgetés közben: a valós idejű hang akkor értékes, ha tényleg folyamatokat indít (időpontfoglalás, jegyzetkészítés, ügyintézés). Itt a legnagyobb kérdés, mennyire stabilan tartja a kontextust, és mennyire kiszámíthatóan hajt végre műveleteket.