The Decoder’ın haberine göre Meta’nın Audiocraft araştırma ekibi, metin komutlarına dayalı olarak yeni müzik üretebilen ve hatta mevcut bir şarkıya hizalanabilen açık kaynaklı bir derin öğrenme dil modeli olan MusicGen’i piyasaya sürdü. Ses için ChatGPT’ye çok benziyor, istediğiniz müzik tarzını tanımlamanıza, mevcut bir melodiyi (isteğe bağlı olarak) bırakmanıza ve ardından “Oluştur”a tıklamanıza izin veriyor. Uzun bir sürenin ardından, metninizdeki komutlara ve melodiye dayanan tamamen yeni bir kısa müzik parçası ortaya çıkarıyor. Facebook’un ‘Hugging Face AI’ sitesindeki demo, müziğinizi tanımlamanıza izin veriyor. Arka planda ağır davullar ve ‘synth pad’ler içeren 80’lerin sürükleyici bir pop şarkısı gibi birkaç örnek sunuyor. Daha sonra bunu en fazla 30 saniye uzunluğunda belirli bir şarkıya “koşullandırabiliyorsunuz” ve kontroller bunun belirli bir bölümünü seçmenize izin veriyor. Ardından, ‘Oluştur’ tuşuna bastığınızda 12 saniye uzunluğa kadar yüksek kaliteli bir örnek oluşturuyor. Ekip, eğitim için Shutterstock ve Pond5 parçalarının yanı sıra dahili bir veri kümesinden 10.000 yüksek kaliteli müzik parçası da dahil olmak üzere 20.000 saatlik lisanslı müzik kullandı.
Daha hızlı hale getirmek için, paralel olarak işlenebilen daha küçük müzik parçaları oluşturmak üzere Meta’nın 32Khz EnCodec ses ‘tokenizer’ını kullandılar. Hugging Face ML Mühendisi Ahsen Khaliq bir tweet’inde “MusicLM gibi mevcut yöntemlerin aksine, MusicGen kendi kendine denetlenen bir semantik temsil gerektirmiyor. Ses saniyesi başına yalnızca 50 otomatik regresif adıma sahip” diye yazdı. Geçtiğimiz ay Google, MusicLM adında benzer bir müzik oluşturucu yayınladı, ancak MusicGen biraz daha iyi sonuçlar üretiyor gibi görünüyor. Araştırmacılar bunu kanıtlamak için örnek bir sayfada MusicGen’in çıktısını MusicLM ve diğer iki model olan Riffusion ve Musai ile karşılaştırıyor. Yerel olarak çalıştırılabilir (en az 16 GB RAM’e sahip bir GPU önerilir) ve küçükten (300 milyon parametre) büyüğe (3,3 milyar parametre) kadar dört model boyutunda mevcut. İkincisi ise karmaşık müzik üretmek için en büyük potansiyele sahip. Belirtildiği gibi, MusicGen açık kaynak kodludur ve ticari müzik üretmek için bile kullanılabilir. Yine de, derin öğrenme modellerinin bir başka türe daha girme tehdidiyle karşı karşıya olduğu son altı aydaki yapay zeka gelişiminin nefes kesici hızının en son örneği.