Ha eddig a képgenerálásnál és videós trükköknél megálltál, most új terep nyílik: a Gemini app már zenét is tud csinálni – ráadásul úgy, hogy egy fotóból is „hangulatot” komponál.

Mi történt

A Google DeepMind bejelentése szerint a Lyria 3, a cég legújabb generatív (mesterséges intelligenciával létrehozott) zenei modellje béta verzióban kigurul a Gemini appba. A működés lényege egyszerű: leírsz egy ötletet (például műfaj, hangulat, poén, emlék), vagy feltöltesz egy képet/videót, és a Gemini másodpercek alatt elkészít egy „jó minőségű, fülbemászó” 30 másodperces tracket.

A DeepMind három fő előrelépést emel ki a Lyria 3-nál az előző Lyria-modellekhez képest:

A Gemini appban a kész dal mellé egyedi borítókép is készül, amit a Google Nano Banana nevű képgenerálója hoz létre. A megosztásra is ráfekszenek: letölthető, vagy linkkel továbbküldhető.

Külön szálon a Lyria 3 megjelenik a YouTube Dream Track funkcióban is: a DeepMind szerint ez javítja a YouTube Shorts egyedi soundtrackjeinek minőségét, és több testreszabást ad (akár dalszöveges részlet, akár „vibe-os” háttérzene). A Dream Track jelenleg az USA-ban elérhető, és a cég szerint más országok YouTube-készítőihez is elkezd kigurulni.

Miért fontos

A zenei generálás itt nem „stúdióhelyettesítőként” van pozicionálva, hanem gyors, személyes önkifejezésként: 30 másodperces, megosztható dalok, amik egy belső poénból, egy emlékből vagy akár egy kirándulós fotóból születnek. Gondolj rá úgy, mint egy instant hangulat-soundtrackre: nem albumot gyártasz, hanem egy rövid, személyre szabott zenei üzenetet.

A másik fontos réteg a hitelesítés. A DeepMind szerint a Gemini appban generált trackek SynthID-t kapnak – ez egy észrevétlen (a hallgatónak nem hallható) digitális vízjel, ami segít azonosítani, hogy a tartalom Google AI-jal készült. Emellett a Gemini ellenőrzési képességei bővülnek: eddig kép és videó esetén is voltak ilyen eszközök, mostantól hangra is kiterjesztik. Feltöltesz egy fájlt, megkérdezed, hogy Google AI generálta-e, a Gemini pedig SynthID-ellenőrzéssel és saját „érvelésével” ad választ.

A szerzői jogi és utánzásos kérdésekre is kitérnek: a DeepMind állítása szerint a Lyria 3-at eredeti önkifejezésre tervezték, nem meglévő előadók „lemásolására”. Ha egy prompt konkrét előadót nevez meg, a Gemini ezt tág inspirációként kezeli (stílus/hangulat), és a cég szerint szűrőket is használnak, amelyek az outputot meglévő tartalmakhoz viszonyítva ellenőrzik. Azt is leírják, hogy a megközelítés nem feltétlenül tévedhetetlen, ezért lehet jogsértő tartalmat jelenteni, és a felhasználóknak be kell tartaniuk a szolgáltatási feltételeket és a tiltott generatív AI-használatra vonatkozó szabályokat.

Mire figyelj

  1. Elérhetőség és korlátok: a Lyria 3 a Gemini appban 18+ felhasználóknak érhető el, és a bejelentés szerint angol, német, spanyol, francia, hindi, japán, koreai és portugál nyelveken indul, további nyelvi bővítést ígérnek. Asztalon „ma”, mobilon a következő napokban jön.
  2. Limit és előfizetés: a Google szerint az AI Plus/Pro/Ultra előfizetők magasabb limiteket kapnak – ha komolyabban használnád, ez a gyakorlati szűk keresztmetszet lehet.
  3. SynthID a gyakorlatban: érdemes figyelni, mennyire lesz megbízható a hangos azonosítás (különösen, ha a fájl többször át van kódolva, vágva, újra feltöltve), és hogyan kommunikálja ezt a Gemini a felhasználóknak.
  4. „Inspiráció” vs. utánzás: a cég azt mondja, nem cél a konkrét előadók másolása, és vannak szűrők – de a határ sokszor ízlésen, kontextuson és jogi értelmezésen múlik. Ha tartalmat publikálsz, a saját kockázatkezelésed (promptok, felhasználási cél, jelentési lehetőségek) továbbra is számít.