Az AI-zene generálás eddig leginkább arról szólt, hogy a modellek egész jól utánoztak egy-egy stílust. Ha viszont túl komplex lett a kérés — például műfajváltás, gyors rap vagy bonyolult hangszerelés — a legtöbb rendszer egyszerűen szétesett. A dalok elvesztették a ritmust, a vokál instabillá vált, vagy az egész úgy hangzott, mintha több különálló tracket vágtak volna össze.
Most viszont az ElevenLabs szerint ezt a problémát is elkezdték megoldani.
A hírt elsőként a The Decoder emelte ki: az ElevenLabs hivatalosan bemutatta a Music v2 modellt, amely állítólag képes arra, hogy egyetlen zeneszámon belül operából heavy metalba, majd akár rapbe váltson anélkül, hogy a zenei koherencia szétesne.
Már nem csak rövid AI-zenei klipekről van szó
Az ElevenLabs saját bejelentése szerint a Music v2 egyik legnagyobb újítása az, hogy a rendszer már nem pusztán rövid loopokat vagy pár másodperces demókat generál. Ehelyett teljes dalstruktúrák építhetők fel szekciónként:
- intro,
- verzék,
- refrének,
- átvezetők,
- és akár teljes műfajváltásokkal tarkított részek formájában.
Ez elsőre marketinges túlzásnak hangzik, de technikailag valóban komoly előrelépésről lehet szó.
A jelenlegi AI-zenei modellek egyik legnagyobb problémája ugyanis a hosszú távú konzisztencia. Minél hosszabb vagy összetettebb egy dal, annál nehezebb:
- ugyanazt a vokált megtartani,
- stabil ritmust fenntartani,
- vagy logikus hangszerelést építeni.
A Music v2 pont ezt próbálja megoldani.
Az ElevenLabs szerint a modell már képes:
- gyors rap delivery kezelésére,
- komplex vokális átmenetekre,
- nem zenei effektek beépítésére,
- és több műfaj természetes összekötésére is.
Az AI-zeneipar kezd brutálisan felgyorsulni
Az egész piac elképesztően gyorsan fejlődik.
A Suno, az Udio, a Google és a Stability AI után most az ElevenLabs is egyre agresszívebben próbál belépni a professzionális AI-zene generálás piacára. A különbség viszont az, hogy az ElevenLabs már eleve audio-specialista cégként indult, így:
- a hangszintézis,
- a vokálkezelés,
- és a beszédmodellek
terén eleve komoly technológiai előnyük van.
A vállalat szerint a Music v2 kizárólag licencelt adatokon lett betanítva, részben a Believe zenei céggel kötött együttműködésnek köszönhetően. Ez különösen fontos most, amikor az AI-zeneipar gyakorlatilag folyamatos szerzői jogi háború alatt áll.
A Suno és az Udio ellen például már komoly perek futnak azzal kapcsolatban, hogy milyen zenéken tanították modelljeiket. Az ElevenLabs láthatóan próbálja elkerülni ezt az irányt.
Már a marketingesekre és fejlesztőkre is rámennek
A Music v2 nem egyetlen termékbe érkezik.
Az ElevenLabs három külön platformon keresztül akarja monetizálni a rendszert:
- ElevenMusic a zenészeknek,
- ElevenAPI a fejlesztőknek,
- ElevenCreative pedig marketinges és brandes felhasználásra készül.
Ez jól mutatja, hogy az AI-zene már nem egyszerű techdemóként működik, hanem konkrét üzleti infrastruktúraként kezd felépülni.
A cég API-hozzáférést is kínál, jelenleg nagyjából 0,15 dolláros percdíj mellett, maximum 5 perces zenegenerálással és 44,1 kHz-es minőséggel.
A kérdés már nem az, hogy működik-e
A legérdekesebb talán az, hogy az AI-zene körüli diskurzus teljesen megváltozott az elmúlt egy évben.
Korábban a kérdés az volt:
„képes-e egyáltalán hallgatható zenét készíteni az AI?”
Most viszont már inkább az:
- mennyire lesz használható professzionális munkára,
- mennyi emberi zenészt válthat ki,
- és hogyan változtatja meg a teljes zeneipart.
És ha a Music v2 valóban képes stabilan kezelni a komplex műfajváltásokat és a hosszabb dalstruktúrákat, akkor az AI-zene generálás következő szintje már nagyon közel lehet.