Microsoft három új alapmodellje: szöveg, hang és videó egy saját MAI-stackben

A Microsoft AI három új „foundational” modellt adott ki: beszédfelismerést, hanggenerálást és videógenerálást. A lépés egyszerre szól a saját, multimodális modellstack építéséről és arról, hogy a cég az OpenAI-partnerség mellett is több lábon álljon — részben árelőnnyel.

Ha eddig úgy gondoltál a Microsoftra, mint aki „csak” az OpenAI-t csomagolja termékbe, ez a bejelentés árnyalja a képet: a cég látványosan építi a saját alapmodell-készletét is.

Mi történt

A Microsoft AI (a vállalat kutatólabja) három új, úgynevezett foundational modellt jelentett be, amelyek szöveget, hangot és képet/videót tudnak generálni a TechCrunch szerint. A cél egy saját, multimodális (többféle bemenetet és kimenetet kezelő) modellstack felépítése, amivel a Microsoft a zsúfolt LLM-piacon a rivális AI-laborokkal is versenyezne — miközben továbbra is szoros kapcsolatban marad az OpenAI-jal.

A három modell:

MAI-Transcribe-1: beszédből szöveget készít 25 nyelven. A Microsoft közlése szerint 2,5× gyorsabb, mint az Azure Fast ajánlata.
MAI-Voice-1: hanggeneráló modell. A vállalat állítása szerint 1 másodperc alatt 60 másodpercnyi audiót generál, és lehetővé teszi egyedi (custom) hang létrehozását.
MAI-Image-2: a cikk szerint videógeneráló modell. (Érdemes megjegyezni: a név „Image”, de a TechCrunch videógenerálásként hivatkozik rá.)

A MAI-Image-2 már március 19-én megjelent a MAI Playgroundban (ez a Microsoft új, nagy nyelvi modellek tesztelésére szolgáló szoftvere — gondolj rá úgy, mint egy „homokozóra”, ahol a fejlesztők kipróbálhatják a modellek képességeit és határait). Most mindhárom modell elérhetővé válik a Microsoft Foundry-ban, a transzkripciós és hangmodell pedig a Playgroundban is.

A fejlesztést a Microsoft MAI Superintelligence csapata jegyzi, amelyet 2025 novemberében hoztak létre, és amelyet Mustafa Suleyman vezet (Microsoft AI vezérigazgató). Suleyman a vállalati blogposztban „Humanist AI”-ról írt: emberközpontú megközelítésről, amely a gyakorlati használatra és arra optimalizál, „ahogyan az emberek ténylegesen kommunikálnak”.

Árazás a vállalat közlése szerint:

MAI-Transcribe-1: $0,36/óra
MAI-Voice-1: $22 / 1 millió karakter
MAI-Image-2: $5 / 1 millió token szöveges bemenetért és $33 / 1 millió token képkimenetért

A Microsoft azt is állítja, hogy ezek a modellek olcsóbbak, mint a Google és az OpenAI megoldásai — és ezt pozicionálási előnyként emeli ki.

Miért fontos

Ez a bejelentés két dolgot tesz egyszerre láthatóvá. Egyrészt a Microsoft komolyan veszi a „saját modellstack” építését: nem csak egyetlen partner (OpenAI) modelljeire akar támaszkodni, hanem többféle, szöveg–hang–videó irányban is fejleszt. A „foundational model” itt azt jelenti, hogy olyan alapmodellről beszélünk, amire később sok különböző termékfunkció és finomhangolt (specifikus feladatra optimalizált) változat épülhet — mint egy univerzális motor, amit több autótípusba is be lehet szerelni.

Másrészt a Microsoft nyíltan a költség/ár dimenzióban is versenyezni akar. A nagy modellpiac egyre inkább nem csak „ki a legjobb benchmarkon” kérdés, hanem arról is szól, ki tud stabil minőséget adni kiszámítható áron, fejlesztőbarát platformon (Foundry/Playground), vállalati integrációval.

Közben Suleyman a VentureBeatnek adott interjúban megerősítette, hogy a Microsoft elkötelezett az OpenAI-partnerség mellett; ugyanakkor a The Verge szerint egy friss újratárgyalás „valódi mozgásteret” adott a Microsoftnak, hogy a szuperintelligencia-kutatást saját irányban is vigye. A cikk egy találó párhuzamot is említ: a Microsoft a chipeknél is ezt csinálja — sajátot is fejleszt, de külső beszállítóktól is vásárol.

Mire figyelj

Valódi képességek a demókon túl: a sebesség- és költségígéretek mellé idővel kellenek majd részletes minőségi összevetések (pontosság transzkripcióban, hang természetessége, videógenerálás megbízhatósága).
Platform-stratégia (Foundry vs. Playground): érdemes követni, milyen gyorsan és milyen feltételekkel kerülnek ezek a modellek a fejlesztői és vállalati workflow-kba.
OpenAI-val való együttélés: a Microsoft egyszerre partner és (bizonyos területeken) versenytárs szerepbe kerülhet. A kérdés az, hogyan oszlik meg a fókusz: mely feladatokra ajánlják majd a MAI-modelleket, és mikor terelik a felhasználót OpenAI-modellek felé.
Árazás és költségplafonok: a startárak önmagukban nem mondanak el mindent; fontos lesz, hogyan alakulnak a csomagok, limitek, és hogy a teljes költség (pl. tokenizáció, ki-/bemeneti tokenarányok) mennyire kiszámítható.