Mi történt
OpenAI több új, valós idejű hangintelligencia-képességet adott az API-jához, kifejezetten fejlesztőknek, akik beszélgetni tudó, átíró és fordító alkalmazásokat akarnak építeni. Ezek mind a Realtime API részeként érhetők el, vagyis olyan integrációra vannak kitalálva, ahol a hang feldolgozása nem utólag történik, hanem a párbeszéd „folyásában”.Az újdonságok három fő elemből állnak. A GPT‑Realtime‑2 egy beszélgető hangmodell, amely „életszerű” hangszimulációt céloz, és a korábbi verzióhoz képest GPT‑5‑szintű következtetési képességekre (reasoning) épít. Ezt úgy érdemes elképzelni, mint amikor nem csak visszamondja, amit kérsz, hanem több lépésben átgondolja a kérést, összerakja a kontextust, és ennek megfelelően válaszol. Emellett jön a GPT‑Realtime‑Translate, ami valós idejű fordítást ad úgy, hogy tartani tudja a beszélgetés tempóját: több mint 70 bemeneti nyelvet ért, és 13 kimeneti nyelvre tud visszafordítani. A harmadik a GPT‑Realtime‑Whisper, ami élő speech-to-text (beszédből szöveg) átírást ad, tehát a szöveg akkor keletkezik, amikor a beszélgetés zajlik, nem utólag.
Miért fontos
A hangos AI akkor lesz igazán használható a hétköznapokban és a céges folyamatokban, ha nem „megállítja” a beszélgetést feldolgozás közben. A valós idejű fordítás például olyan, mint egy tolmács, aki nem a mondat végén kezd el gondolkodni, hanem együtt lélegzik a beszélővel. Az élő átírás pedig nem csak jegyzetelés: alapja lehet kereshető meeting-archívumnak, ügyfélszolgálati összefoglalóknak vagy események feliratozásának. A fejlesztőknek az is praktikus, hogy a modellek árazása a feladathoz igazodik: a fordítás és az átírás percdíjas, míg a beszélgető hangmodell tokenalapon számláz.Mire figyelj
- Nyelvi lefedettség vs. valós igény: a 70+ bemeneti és 13 kimeneti nyelv jól hangzik, de a terméktervezésnél az számít, a te piacodon mely nyelvek kimeneti oldalon is támogatottak.
- Költségmodell: percdíj (fordítás, átírás) vs. token (Realtime‑2). Ha hosszú beszélgetéseket futtatsz, a költségprofil teljesen más lesz, mint rövid, célzott interakcióknál.
- Visszaélés és védelem: a hangalapú rendszerek könnyen csúsznak spambe vagy csalásba (például automatizált hívások). A TechCrunch AI anyaga alapján a rendszerbe olyan „triggerek” kerültek, amelyek megállíthatják a beszélgetést, ha az káros tartalmi irányelveket sért — fejlesztőként érdemes figyelni, hogyan hat ez a felhasználói élményre, és milyen esetekben téveszthet.
- „Cselekvés” a beszélgetés közben: a valós idejű hang akkor értékes, ha tényleg folyamatokat indít (időpontfoglalás, jegyzetkészítés, ügyintézés). Itt a legnagyobb kérdés, mennyire stabilan tartja a kontextust, és mennyire kiszámíthatóan hajt végre műveleteket.
