Ha diktálással írsz jegyzetet, e-mailt vagy dokumentumot, a legnagyobb gond ritkán a felismerés pontossága — inkább az, hogy a nyers beszéd szövegként esetlen. A Google új iOS-appja pont erre lő: offline is működik, és nem szó szerint, hanem „értelem szerint” próbál tisztább szöveget adni.

Mi történt

A Google hétfőn csendben kiadott egy „offline-first” diktáló alkalmazást iOS-re Google AI Edge Eloquent néven — írja a TechCrunch. Az app ingyen letölthető, és miután letöltöd a Gemma-alapú automatikus beszédfelismerő (ASR) modelleket, elvileg internet nélkül is tudsz diktálni. (Az ASR-t úgy képzeld el, mint a telefon „fülét”: a hangból betűket csinál.)

Használat közben élő átiratot látsz, majd amikor megállítod a diktálást, az app automatikusan kiszűri a töltelékszavakat (például az „ö”, „izé” jellegű megszakításokat — az angol példák az „um” és „ah”), és „kicsiszolja” a szöveget. A transzkript alatt több átalakító opció is megjelenik, például „Key points” (kulcspontok), „Formal” (formális), „Short” (rövid) és „Long” (hosszú), amelyek a diktált szöveg átfogalmazását/strukturálását célozzák.

A Google külön kiemeli, hogy a felhő használata kapcsolható: cloud mode mellett a szövegtisztítást a felhőben futó Gemini modellek végzik, de ezt ki lehet kapcsolni, és akkor helyben (local-only) történik a feldolgozás. Érdekesség, hogy az app — ha kéred — képes bizonyos kulcsszavakat, neveket és zsargont importálni a Gmail-fiókodból, illetve saját egyedi szavakat is hozzáadhatsz.

Az alkalmazás a diktálási előzményeket is tárolja és kereshetővé teszi, valamint statisztikákat mutat, például az utolsó session szavait, a szavak/perc tempót és az összes kimondott szó számát.

Bár az app jelenleg csak iOS-en érhető el, az App Store leírása Android-verziót is említ. A TechCrunch szerint a leírás „seamless Android integration”-ről beszél: az app beállítható lenne alapértelmezett billentyűzetként, így bármely szövegmezőben használható lenne rendszer-szinten, és egy „lebegő gombos” gyorsindítót is kaphatna (hasonlóan a Wispr Flow Androidos megoldásához).

Miért fontos

Az „offline-first” megközelítés nem csak kényelmi extra. A helyben futó beszédfelismerés azt jelenti, hogy diktálhatsz gyengébb hálózaton, repülőn vagy olyan helyzetben, ahol nem akarsz felhőre támaszkodni — és elvben a hangod feldolgozása is kevesebb külső függőséggel jár. Gondolj rá úgy, mint amikor a fotóidat nem feltöltöd szerkesztésre, hanem a telefonon javítod: gyorsabb, kiszámíthatóbb, és sokszor nyugodtabb érzés.

A másik lényeg a „szövegminőség”: a Google leírása szerint az Eloquent nem a megbicsaklásokat és önjavításokat írja le szó szerint, hanem a szándékolt mondanivalót próbálja „professzionális, használatra kész” prózává formázni. Ez a diktálós appok új hullámának központi ígérete — és az is látszik, hogy a Google ezzel a Wispr Flow, SuperWhisper, Willow és hasonló eszközök piacára lép be.

Mire figyelj

  1. Offline vs. felhő mód a gyakorlatban: érdemes figyelni, mennyire jó a helyi (Gemma-alapú) tisztítás a felhős (Gemini) verzióhoz képest, és mely funkciók kötődnek ténylegesen a felhőhöz.
  2. Gmailből importált szókincs: hasznos lehet nevekhez és szakzsargonhoz, de fontos kérdés, pontosan milyen hozzáféréseket kér, és mennyire átlátható, mit importál.
  3. Android-tervek és rendszer-szintű integráció: ha tényleg jön az Android-verzió alapértelmezett billentyűzetként és lebegő gombbal, az már nem „csak egy app”, hanem potenciálisan a mindennapi szövegbevitel egyik alap eszköze lehet.
  4. Kísérleti jelleg és termékesítés: a TechCrunch szerint ez egy kísérleti belépő a trendbe; érdemes követni, hogy a Google beépíti-e a tanulságokat az Android és a Google-szolgáltatások natív diktálási funkcióiba.