Ha eddig úgy gondoltál a Microsoftra, mint aki „csak” az OpenAI-t csomagolja termékbe, ez a bejelentés árnyalja a képet: a cég látványosan építi a saját alapmodell-készletét is.

Mi történt

A Microsoft AI (a vállalat kutatólabja) három új, úgynevezett foundational modellt jelentett be, amelyek szöveget, hangot és képet/videót tudnak generálni a TechCrunch szerint. A cél egy saját, multimodális (többféle bemenetet és kimenetet kezelő) modellstack felépítése, amivel a Microsoft a zsúfolt LLM-piacon a rivális AI-laborokkal is versenyezne — miközben továbbra is szoros kapcsolatban marad az OpenAI-jal.

A három modell:

A MAI-Image-2 már március 19-én megjelent a MAI Playgroundban (ez a Microsoft új, nagy nyelvi modellek tesztelésére szolgáló szoftvere — gondolj rá úgy, mint egy „homokozóra”, ahol a fejlesztők kipróbálhatják a modellek képességeit és határait). Most mindhárom modell elérhetővé válik a Microsoft Foundry-ban, a transzkripciós és hangmodell pedig a Playgroundban is.

A fejlesztést a Microsoft MAI Superintelligence csapata jegyzi, amelyet 2025 novemberében hoztak létre, és amelyet Mustafa Suleyman vezet (Microsoft AI vezérigazgató). Suleyman a vállalati blogposztban „Humanist AI”-ról írt: emberközpontú megközelítésről, amely a gyakorlati használatra és arra optimalizál, „ahogyan az emberek ténylegesen kommunikálnak”.

Árazás a vállalat közlése szerint:

A Microsoft azt is állítja, hogy ezek a modellek olcsóbbak, mint a Google és az OpenAI megoldásai — és ezt pozicionálási előnyként emeli ki.

Miért fontos

Ez a bejelentés két dolgot tesz egyszerre láthatóvá. Egyrészt a Microsoft komolyan veszi a „saját modellstack” építését: nem csak egyetlen partner (OpenAI) modelljeire akar támaszkodni, hanem többféle, szöveg–hang–videó irányban is fejleszt. A „foundational model” itt azt jelenti, hogy olyan alapmodellről beszélünk, amire később sok különböző termékfunkció és finomhangolt (specifikus feladatra optimalizált) változat épülhet — mint egy univerzális motor, amit több autótípusba is be lehet szerelni.

Másrészt a Microsoft nyíltan a költség/ár dimenzióban is versenyezni akar. A nagy modellpiac egyre inkább nem csak „ki a legjobb benchmarkon” kérdés, hanem arról is szól, ki tud stabil minőséget adni kiszámítható áron, fejlesztőbarát platformon (Foundry/Playground), vállalati integrációval.

Közben Suleyman a VentureBeatnek adott interjúban megerősítette, hogy a Microsoft elkötelezett az OpenAI-partnerség mellett; ugyanakkor a The Verge szerint egy friss újratárgyalás „valódi mozgásteret” adott a Microsoftnak, hogy a szuperintelligencia-kutatást saját irányban is vigye. A cikk egy találó párhuzamot is említ: a Microsoft a chipeknél is ezt csinálja — sajátot is fejleszt, de külső beszállítóktól is vásárol.

Mire figyelj

  1. Valódi képességek a demókon túl: a sebesség- és költségígéretek mellé idővel kellenek majd részletes minőségi összevetések (pontosság transzkripcióban, hang természetessége, videógenerálás megbízhatósága).
  2. Platform-stratégia (Foundry vs. Playground): érdemes követni, milyen gyorsan és milyen feltételekkel kerülnek ezek a modellek a fejlesztői és vállalati workflow-kba.
  3. OpenAI-val való együttélés: a Microsoft egyszerre partner és (bizonyos területeken) versenytárs szerepbe kerülhet. A kérdés az, hogyan oszlik meg a fókusz: mely feladatokra ajánlják majd a MAI-modelleket, és mikor terelik a felhasználót OpenAI-modellek felé.
  4. Árazás és költségplafonok: a startárak önmagukban nem mondanak el mindent; fontos lesz, hogyan alakulnak a csomagok, limitek, és hogy a teljes költség (pl. tokenizáció, ki-/bemeneti tokenarányok) mennyire kiszámítható.