Ha használtál már hangalapú AI-t, ismerős a ritmus: te beszélsz, ő hallgat; ő beszél, te vársz. A Thinking Machines Lab most azt ígéri, hogy ezt a „váltott műszakot” lecseréli egy természetesebb, egymás szavába vágós beszélgetésre.

Mi történt

A Mira Murati (korábbi OpenAI CTO) által alapított Thinking Machines Lab bejelentett egy új irányt, amit „interaction modelnek” nevez. A lényeg: a modell nem külön fázisokban dolgozik (előbb bemenet feldolgozása, aztán válaszgenerálás), hanem a felhasználói input érkezésével párhuzamosan elkezd választ formálni.

Ennek a technikai neve „full duplex”. Gondolj rá úgy, mint a telefonra: mindkét fél egyszerre tud beszélni és hallani, nem kell megvárni, míg a másik „befejezi az üzenet elküldését”. A cég szerint a TML-Interaction-Small nevű modell 0,40 másodperc alatt reagál, ami nagyjából az emberi beszélgetések természetes tempójához közelít, és állításuk szerint gyorsabb, mint a hasonló megoldások az OpenAI-nál és a Google-nél.

Fontos korlát: ez még nem termék, hanem kutatási előnézet. A modell nem elérhető nyilvánosan; a következő hónapokban „limitált research preview” várható, szélesebb körű kiadás pedig a tervek szerint az év későbbi részében.

Miért fontos

A sebesség itt nem csak kényelmi kérdés. A hangalapú asszisztenseknél a késleltetés (latency) olyan, mint beszélgetés közben a kínos szünet: minél hosszabb, annál kevésbé érzed interaktívnak. A „full duplex” megközelítés ráadásul nem pusztán egy UI-trükk (például hogy a rendszer gyorsan visszamond valamit, amíg „gondolkodik”), hanem azt célozza, hogy a modellek alapból úgy legyenek felépítve, hogy folyamatosan tudjanak alkalmazkodni a beszélgetés közben érkező új jelekhez. Ez különösen akkor lehet hasznos, amikor javítanál, pontosítanál, vagy félbeszakítanád az AI-t, mert félreértett valamit.

Mire figyelj

  1. Valós élmény vs. benchmark: a 0,40 másodperces reakcióidő jól hangzik, de az fog számítani, mennyire „emberi” a megszakítás kezelése (nem beszél-e rád, tud-e visszakérdezni, észreveszi-e a korrekciót).
  2. Minőség kompromisszumok: a gyors válasz nem ér sokat, ha a modell pontossága vagy koherenciája romlik. Kérdés, hogy a párhuzamos feldolgozás hoz-e mellékhatásokat.
  3. Hozzáférés és használati esetek: a limitált kutatási preview vélhetően szűk körben indul. Érdemes figyelni, milyen feladatokra engedik rá először (ügyfélszolgálat, meeting-asszisztens, valós idejű tolmácsolás), mert ezek mutatják meg, hol működik igazán a „telefonhívás-szerű” AI.

A TechCrunch értékelése is óvatos: a koncepció és a mérések ígéretesek, de az derül ki, hogy tényleg működik-e, amikor a felhasználók végre élőben, hétköznapi környezetben próbálhatják ki.