A hangalapú AI-nál nem elég „okosnak” lenni: valós időben kell reagálni, közben gondolkodni, és néha több lépésben intézni dolgokat. OpenAI most pont ezen a kellemetlen, hétköznapi részén próbált nagyot javítani.

Mi történt

OpenAI bemutatta a GPT-Realtime-2, a GPT-Realtime-Translate és a GPT-Realtime-Whisper modelleket, amelyek API-n keresztül építhetők be alkalmazásokba. A csomag gyakorlatilag egy „hangügynök-eszköztár”: élő beszédgenerálás, valós idejű fordítás, és folyamatos (streaming) beszédfelismerés/átírás.

A központi darab a GPT-Realtime-2, amelyet kifejezetten valós idejű beszélgetésre és ügynökszerű feladatvégrehajtásra pozicionálnak. A frissítések lényege:

A mérhető javulást egy hangos következtetési benchmark is jelzi: a Big Bench Audio feladatsoron a Realtime-2 96,6%-ot ért el, míg az előző generáció 81,4%-ot – ez nagyjából 15 százalékpontos ugrás abban, mennyire tud a modell „észben tartva” és helyesen reagálni, miközben hanggal dolgozik. Közben érkezett egy 70+ nyelvet lefedő élő fordító (Realtime-Translate), illetve egy streaming transzkripciós modell (Realtime-Whisper), ami folyamatosan, késleltetés nélkül tudja szöveggé alakítani a beszédet.

Miért fontos

A hangalapú ügynökök egyik nagy baja eddig az volt, hogy a beszélgetés sokszor „körönkénti” lett: kérdezel, vársz, a rendszer gondolkodik, válaszol, majd újra vársz – ez megtöri a természetes ritmust. Gondolj rá úgy, mintha telefonon ügyet intéznél, de a másik fél minden mondat után hosszú másodpercekig lapozgatná a kézikönyvet, majd csak utána reagálna.

A mostani irány ezzel szemben az, hogy az AI folyamatosan jelen legyen a beszélgetésben, és közben el tudja végezni a háttérmunkát is. A „tool use” itt azt jelenti, hogy a hangügynök nem csak beszél: képes például keresni, foglalni, adatot lekérni vagy munkafolyamat-lépéseket végrehajtani külső rendszerekben – és a több eszköz párhuzamos használata azért számít, mert a valódi ügyintézés ritkán egyetlen API-hívás.

Mire figyelj

  1. Késleltetés és természetesség a gyakorlatban: a demók és benchmarkok után az lesz az igazi kérdés, mennyire tud stabilan „emberi tempóban” működni zajos környezetben, több szereplővel, megszakításokkal.
  2. Eszközhasználat biztonsága: minél több rendszerhez fér hozzá egy hangügynök (foglalás, ügyféladat, fizetés), annál fontosabb a jogosultságkezelés, naplózás és a hibák visszagörgethetősége.
  3. Fordítás és átírás minősége éles helyzetben: a 70+ nyelv jól hangzik, de vállalati ügyfélszolgálatnál a szakszókincs, nevek, címek, és a félrehallás költsége a kritikus.
  4. Valódi üzleti bevezetés jelei: a The Rundown AI említi, hogy Zillow, Priceline és Deutsche Telekom már épít ezekre a modellekre — érdemes figyelni, mikor jelennek meg konkrét, nyilvánosan is kipróbálható megoldások és milyen feladatokat bíznak ténylegesen a hangügynökre.

The Rundown AI (https://www.therundown.ai/p/openai-closes-reasoning-gap-in-voice-agents)