Mi történt
A Microsoft AI (a vállalat kutatólabja) három új, úgynevezett foundational modellt jelentett be, amelyek szöveget, hangot és képet/videót tudnak generálni a TechCrunch szerint. A cél egy saját, multimodális (többféle bemenetet és kimenetet kezelő) modellstack felépítése, amivel a Microsoft a zsúfolt LLM-piacon a rivális AI-laborokkal is versenyezne — miközben továbbra is szoros kapcsolatban marad az OpenAI-jal.A három modell:
- MAI-Transcribe-1: beszédből szöveget készít 25 nyelven. A Microsoft közlése szerint 2,5× gyorsabb, mint az Azure Fast ajánlata.
- MAI-Voice-1: hanggeneráló modell. A vállalat állítása szerint 1 másodperc alatt 60 másodpercnyi audiót generál, és lehetővé teszi egyedi (custom) hang létrehozását.
- MAI-Image-2: a cikk szerint videógeneráló modell. (Érdemes megjegyezni: a név „Image”, de a TechCrunch videógenerálásként hivatkozik rá.)
A fejlesztést a Microsoft MAI Superintelligence csapata jegyzi, amelyet 2025 novemberében hoztak létre, és amelyet Mustafa Suleyman vezet (Microsoft AI vezérigazgató). Suleyman a vállalati blogposztban „Humanist AI”-ról írt: emberközpontú megközelítésről, amely a gyakorlati használatra és arra optimalizál, „ahogyan az emberek ténylegesen kommunikálnak”.
Árazás a vállalat közlése szerint:
- MAI-Transcribe-1: $0,36/óra
- MAI-Voice-1: $22 / 1 millió karakter
- MAI-Image-2: $5 / 1 millió token szöveges bemenetért és $33 / 1 millió token képkimenetért
Miért fontos
Ez a bejelentés két dolgot tesz egyszerre láthatóvá. Egyrészt a Microsoft komolyan veszi a „saját modellstack” építését: nem csak egyetlen partner (OpenAI) modelljeire akar támaszkodni, hanem többféle, szöveg–hang–videó irányban is fejleszt. A „foundational model” itt azt jelenti, hogy olyan alapmodellről beszélünk, amire később sok különböző termékfunkció és finomhangolt (specifikus feladatra optimalizált) változat épülhet — mint egy univerzális motor, amit több autótípusba is be lehet szerelni.Másrészt a Microsoft nyíltan a költség/ár dimenzióban is versenyezni akar. A nagy modellpiac egyre inkább nem csak „ki a legjobb benchmarkon” kérdés, hanem arról is szól, ki tud stabil minőséget adni kiszámítható áron, fejlesztőbarát platformon (Foundry/Playground), vállalati integrációval.
Közben Suleyman a VentureBeatnek adott interjúban megerősítette, hogy a Microsoft elkötelezett az OpenAI-partnerség mellett; ugyanakkor a The Verge szerint egy friss újratárgyalás „valódi mozgásteret” adott a Microsoftnak, hogy a szuperintelligencia-kutatást saját irányban is vigye. A cikk egy találó párhuzamot is említ: a Microsoft a chipeknél is ezt csinálja — sajátot is fejleszt, de külső beszállítóktól is vásárol.
Mire figyelj
- Valódi képességek a demókon túl: a sebesség- és költségígéretek mellé idővel kellenek majd részletes minőségi összevetések (pontosság transzkripcióban, hang természetessége, videógenerálás megbízhatósága).
- Platform-stratégia (Foundry vs. Playground): érdemes követni, milyen gyorsan és milyen feltételekkel kerülnek ezek a modellek a fejlesztői és vállalati workflow-kba.
- OpenAI-val való együttélés: a Microsoft egyszerre partner és (bizonyos területeken) versenytárs szerepbe kerülhet. A kérdés az, hogyan oszlik meg a fókusz: mely feladatokra ajánlják majd a MAI-modelleket, és mikor terelik a felhasználót OpenAI-modellek felé.
- Árazás és költségplafonok: a startárak önmagukban nem mondanak el mindent; fontos lesz, hogyan alakulnak a csomagok, limitek, és hogy a teljes költség (pl. tokenizáció, ki-/bemeneti tokenarányok) mennyire kiszámítható.
