OpenAI új valós idejű hangmodelljei közelebb viszik az ügyintéző AI-t

OpenAI három új, API-n elérhető valós idejű hangmodellt mutatott be: egy erősebb beszélgető modellt, egy élő fordítót és egy streaming átírót. A lényeg nem a „szebb hang”, hanem az, hogy a hangalapú ügynökök végre kevesebbet akadjanak meg gondolkodás közben, és természetesebb tempóban tudjanak feladatokat intézni.

A hangalapú AI-nál nem elég „okosnak” lenni: valós időben kell reagálni, közben gondolkodni, és néha több lépésben intézni dolgokat. OpenAI most pont ezen a kellemetlen, hétköznapi részén próbált nagyot javítani.

Mi történt

OpenAI bemutatta a GPT-Realtime-2, a GPT-Realtime-Translate és a GPT-Realtime-Whisper modelleket, amelyek API-n keresztül építhetők be alkalmazásokba. A csomag gyakorlatilag egy „hangügynök-eszköztár”: élő beszédgenerálás, valós idejű fordítás, és folyamatos (streaming) beszédfelismerés/átírás.

A központi darab a GPT-Realtime-2, amelyet kifejezetten valós idejű beszélgetésre és ügynökszerű feladatvégrehajtásra pozicionálnak. A frissítések lényege:

erősebb következtetés (reasoning) élő beszédben,
„beszél, miközben gondolkodik” jellegű működés (vagyis nem kell minden válasz előtt hosszú csendeket kivárni),
több eszköz egyidejű használata (tool use),
és jobb hangszín-/stílusvezérlés a természetesebb megszólaláshoz.

A mérhető javulást egy hangos következtetési benchmark is jelzi: a Big Bench Audio feladatsoron a Realtime-2 96,6%-ot ért el, míg az előző generáció 81,4%-ot – ez nagyjából 15 százalékpontos ugrás abban, mennyire tud a modell „észben tartva” és helyesen reagálni, miközben hanggal dolgozik. Közben érkezett egy 70+ nyelvet lefedő élő fordító (Realtime-Translate), illetve egy streaming transzkripciós modell (Realtime-Whisper), ami folyamatosan, késleltetés nélkül tudja szöveggé alakítani a beszédet.

Miért fontos

A hangalapú ügynökök egyik nagy baja eddig az volt, hogy a beszélgetés sokszor „körönkénti” lett: kérdezel, vársz, a rendszer gondolkodik, válaszol, majd újra vársz – ez megtöri a természetes ritmust. Gondolj rá úgy, mintha telefonon ügyet intéznél, de a másik fél minden mondat után hosszú másodpercekig lapozgatná a kézikönyvet, majd csak utána reagálna.

A mostani irány ezzel szemben az, hogy az AI folyamatosan jelen legyen a beszélgetésben, és közben el tudja végezni a háttérmunkát is. A „tool use” itt azt jelenti, hogy a hangügynök nem csak beszél: képes például keresni, foglalni, adatot lekérni vagy munkafolyamat-lépéseket végrehajtani külső rendszerekben – és a több eszköz párhuzamos használata azért számít, mert a valódi ügyintézés ritkán egyetlen API-hívás.

Mire figyelj

Késleltetés és természetesség a gyakorlatban: a demók és benchmarkok után az lesz az igazi kérdés, mennyire tud stabilan „emberi tempóban” működni zajos környezetben, több szereplővel, megszakításokkal.
Eszközhasználat biztonsága: minél több rendszerhez fér hozzá egy hangügynök (foglalás, ügyféladat, fizetés), annál fontosabb a jogosultságkezelés, naplózás és a hibák visszagörgethetősége.
Fordítás és átírás minősége éles helyzetben: a 70+ nyelv jól hangzik, de vállalati ügyfélszolgálatnál a szakszókincs, nevek, címek, és a félrehallás költsége a kritikus.
Valódi üzleti bevezetés jelei: a The Rundown AI említi, hogy Zillow, Priceline és Deutsche Telekom már épít ezekre a modellekre — érdemes figyelni, mikor jelennek meg konkrét, nyilvánosan is kipróbálható megoldások és milyen feladatokat bíznak ténylegesen a hangügynökre.

The Rundown AI (https://www.therundown.ai/p/openai-closes-reasoning-gap-in-voice-agents)