Stability AI a anunțat lansarea Stable Audio, un program de inteligență artificială text-audio care poate sintetiza muzică sau sunete după un text. Stability AI este compania care a contribuit la finanțarea creării lui Stable Diffusion, un model de sinteză a imaginilor de difuzie latentă lansat în august 2022.
Nemulțumită să se limiteze la generarea de imagini, compania s-a extins în domeniul audio, susținând Harmonai, un laborator de AI care a lansat în septembrie generatorul de muzică Dance Diffusion.
Acum, Stability și Harmonai doresc să pătrundă în producția audio AI comercială cu Stable Audio. Judecând după eșantioanele de producție, pare a fi o îmbunătățire semnificativă a calității audio față de generatoarele audio AI anterioare pe care le-am văzut.
Pe pagina sa promoțională, Stability oferă exemple de model AI în acțiune cu indicații precum „epic trailer music intense tribal percussion and brass” și „lofi hip hop beat melodic chillhop 85 bpm”.
De asemenea, oferă mostre de efecte sonore generate cu ajutorul Stable Audio, cum ar fi un pilot de avion care vorbește prin interfon și oameni care vorbesc într-un restaurant aglomerat.
Pentru a-și antrena modelul, Stability a încheiat un parteneriat cu furnizorul de muzică de arhivă AudioSparx și a licențiat un set de date „constând în peste 800.000 de fișiere audio care conțin muzică, efecte sonore și tulpini de un singur instrument, precum și metadatele de text corespunzătoare”.
După ce a introdus 19.500 de ore de înregistrări audio în model, Stable Audio știe cum să imite anumite sunete pe care le-a auzit la comandă, deoarece sunetele au fost asociate cu descrieri textuale ale acestora în cadrul rețelei sale neuronale.
Stable Audio conține mai multe părți care lucrează împreună pentru a crea rapid un sunet personalizat. O parte micșorează fișierul audio într-un mod care îi păstrează caracteristicile importante, eliminând în același timp zgomotul inutil.
Acest lucru face ca sistemul să fie atât mai rapid de învățat, cât și mai rapid în crearea de noi înregistrări audio. O altă parte utilizează text (descrieri de metadate ale muzicii și sunetelor) pentru a ajuta la ghidarea tipului de sunet generat.
Pentru a accelera lucrurile, arhitectura Stable Audio funcționează pe o reprezentare audio puternic simplificată și comprimată pentru a reduce timpul de inferență (timpul necesar unui model de învățare automată pentru a genera o ieșire după ce i s-a dat o intrare).
Potrivit Stability AI, Stable Audio poate reda 95 de secunde de sunet stereo la o rată de eșantionare de 44,1 kHz (adesea numită „calitate CD”) în mai puțin de o secundă pe un GPU Nvidia A100. A100 este un GPU robust pentru centre de date, conceput pentru utilizarea AI, și este mult mai capabil decât un GPU tipic pentru jocuri de birou.
În ianuarie, Google a lansat MusicLM, un generator de muzică cu inteligență artificială pentru audio de 24 kHz, iar Meta a lansat în august o suită de instrumente audio open source (inclusiv un generator text-muzică) numită AudioCraft. Acum, cu audio stereo de 44,1 kHz, Stable Diffusion ridică miza.
Stabile spune că Stable Audio va fi disponibil într-un nivel gratuit și un plan Pro de 12 dolari pe lună. Cu opțiunea gratuită, utilizatorii pot genera până la 20 de piese pe lună, fiecare cu o durată maximă de 20 de secunde.
Planul Pro extinde aceste limite, permițând generarea a 500 de piese pe lună și o lungime a pieselor de până la 90 de secunde.
Se așteaptă ca viitoarele versiuni Stability să includă modele open source bazate pe arhitectura Stable Audio, precum și coduri de instruire pentru cei interesați să dezvolte modele de generare audio.
Având în vedere fidelitatea audio, se pare că, în momentul de față, am putea fi la limita unei muzici generate de inteligența artificială de calitate de producție cu Stable Audio.
Vor fi muzicienii fericiți dacă vor fi înlocuiți de modelele AI? Probabil că nu.
Deocamdată, un om poate întrece cu ușurință orice poate genera AI, dar s-ar putea să nu fie cazul pentru mult timp. Oricum ar fi, sunetul generat de AI ar putea deveni un alt instrument în setul de producție audio al unui profesionist.

Cu o experiență de 15 ani în domeniul jurnalismului IT&C, Cristi Popa este un expert în a traduce complexitatea tehnologică în termeni simpli și ușor de înțeles pentru publicul larg. Pasionat de inovație și tehnologie, el urmărește îndeaproape evoluțiile din industrie și le aduce la cunoștința cititorilor într-un mod captivant și informativ.
Cristi Popa a lucrat pentru publicații de top, atât online, cât și offline, unde a acoperit o gamă largă de subiecte, de la lansări de produse noi și tendințe tehnologice emergente, până la probleme de securitate cibernetică și impactul tehnologiei asupra societății. El a intervievat lideri din industrie, experți și utilizatori obișnuiți, oferind cititorilor perspective unice și valoroase asupra lumii tehnologiei.
Pe lângă activitatea sa jurnalistică la GadgetReport.ro, Cristi este un vorbitor public căutat și un moderator la evenimente din domeniu.
Cristi Popa este un jurnalist dedicat și un profesionist cu o etică puternică. El este cunoscut pentru capacitatea sa de a se adapta rapid la noile tehnologii și pentru a oferi informații corecte și la timp.
Pe lângă activitatea sa profesională, Cristi este un pasionat de tehnologie și un utilizator avid de gadgeturi. El este mereu în căutarea de noi tehnologii și gadgeturi care să-i facă viața mai ușoară și mai interesantă.