Microsoft, VALL-E adını verdiği ve sadece üç saniyelik bir ses örneğinden birinin sesini taklit edebilen bir modelle metinden konuşmaya yapay zeka alanındaki en son araştırmasını sergiledi. Konuşma sadece tınıyı değil, aynı zamanda konuşmacının duygusal tonunu ve hatta bir odanın akustiğini de eşleştirebiliyor. Yakın bir zamanda özelleştirilmiş ya da üst düzey metin-konuşma uygulamaları için kullanılabilir, ancak ‘deepfakes’ gibi kötüye kullanım riskleri taşıyor.
VALL-E, Microsoft’un “nöral kodek dil modeli” olarak adlandırdığı şeydir. Meta’nın yapay zeka destekli sıkıştırma sinir ağı Encodec’ten türetilmiştir. Metin girdisinden ve hedef konuşmacıdan alınan kısa örneklerden ses üretir. Bir makalede araştırmacılar, VALL-E’yi Meta’nın ‘LibriLight’ ses kütüphanesindeki 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce konuşma üzerinde nasıl eğittiklerini anlatıyor. Taklit etmeye çalıştığı ses, eğitim verilerindeki bir sesle yakın bir eşleşme olmalıdır. Durum böyleyse, hedef konuşmacının istenen metin girdisini konuşurken nasıl ses çıkaracağını belirlemek için eğitim verilerini kullanır.
Ekip bunun ne kadar iyi çalıştığını VALL-E Github sayfasında gösteriyor. Yapay zekanın “konuşmasını” istedikleri her cümle için, taklit edilecek konuşmacıdan üç saniyelik bir uyarı, karşılaştırma için aynı konuşmacının başka bir cümle söylediği bir “temel gerçek”, bir “temel” geleneksel metin-konuşma sentezi ve sonunda VALL-E örneği var. Sonuçlar karışık, bazıları makine gibi ses çıkarırken bazıları şaşırtıcı derecede gerçekçi. Orijinal örneklerin duygusal tonunu koruduğu gerçeği, işe yarayanları satan şeydir. Ayrıca akustik ortama da sadık kalıyor, yani konuşmacı sesini yankılı bir salonda kaydetmişse, VALL-E çıktısı da aynı yerden gelmiş gibi duyuluyor.
Microsoft, modeli geliştirmek için “prozodi, konuşma tarzı ve konuşmacı benzerliği perspektiflerinde model performansını iyileştirmek üzere” eğitim verilerini büyütmeyi planlıyor. Ayrıca belirsiz ya da gözden kaçan kelimeleri azaltmanın yollarını da araştırıyor. Microsoft, muhtemelen kelimeleri birinin ağzına koyabilen yapay zekanın doğasında bulunan riskler nedeniyle kodu açık kaynak yapmamayı tercih etti. Daha fazla geliştirme için ‘Microsoft Yapay Zeka İlkeleri’ni takip edeceğini de ekledi. “VALL-E, konuşmacının kimliğini koruyan bir konuşma sentezleyebildiğinden, ses tanımlama sahtekarlığı veya kimliğe bürünme gibi modelin kötüye kullanımında potansiyel riskler taşıyabilir,” diye yazdı.
Araştırmacılar bu sonuçları elde etmek için VALL-E’ye yalnızca üç saniyelik “Konuşmacı İstemi” örneğini ve bir metin dizesini (sesin ne söylemesini istediklerini) verdiler. Bazı VALL-E sonuçları bilgisayar tarafından üretilmiş gibi görünse de, diğerleri modelin amacı olan insan konuşması olarak yanlış anlaşılabilir. VALL-E’nin suistimalleri ve hileleri körükleme potansiyeli nedeniyle Microsoft, VALL-E kodunu başkalarının keşfetmesi için kullanıma açmadı. Araştırmacılar, bu teknolojinin neden olabileceği potansiyel sosyal zararın farkında görünüyorlar.
