Meta, ChatGPT klonu olmayan bir yapay zeka dil modeli geliştirdi. Şirketin Kitlesel Çok Dilli Konuşma (MMS) projesi 4.000’den fazla konuşma dilini tanıyabiliyor ve 1.100’den fazla dilde konuşma (metinden sese) üretebiliyor. Meta, kamuoyuna duyurduğu diğer yapay zeka projelerinin çoğunda olduğu gibi, dil çeşitliliğinin korunmasına yardımcı olmak ve araştırmacıları temel üzerine inşa etmeye teşvik etmek için bugün MMS’yi açık kaynak olarak sunuyor. Şirket, “Bugün, araştırma topluluğundaki diğer kişilerin çalışmalarımızı geliştirebilmeleri için modellerimizi ve kodumuzu kamuya açık bir şekilde paylaşıyoruz” diye yazdı. “Bu çalışma sayesinde, dünyanın inanılmaz dil çeşitliliğinin korunmasına küçük bir katkıda bulunmayı umuyoruz.” Konuşma tanıma ve metinden sese modelleri tipik olarak binlerce saatlik ses ve beraberinde transkripsiyon etiketleri üzerinde eğitim gerektirir. (Etiketler makine öğrenimi için çok önemlidir, algoritmaların verileri doğru bir şekilde kategorize etmesine ve “anlamasına” olanak tanır).
Ancak sanayileşmiş ülkelerde yaygın olarak kullanılmayan diller için ki bunların çoğu önümüzdeki on yıllarda yok olma tehlikesiyle karşı karşıyadır, Meta’nın ifadesiyle “bu veriler mevcut değildir”. Meta ses verisi toplamak için alışılmadık bir yaklaşım kullandı. Çevrilmiş dini metinlerin ses kayıtlarından yararlandı. Şirket, “İncil gibi birçok farklı dile çevrilmiş ve metin tabanlı dil çevirisi araştırmaları için çevirileri geniş çapta incelenmiş dini metinlere yöneldik” dedi. “Bu çevirilerde, bu metinleri farklı dillerde okuyan insanların kamuya açık ses kayıtları var.” Meta araştırmacıları, İncil ve benzeri metinlerin etiketlenmemiş kayıtlarını da dahil ederek modelin mevcut dil sayısını 4.000’in üzerine çıkardı. Bu yaklaşım ilk bakışta kaşlarınızı kaldırmanıza neden olabilir, çünkü kulağa dini açıdan dünya görüşlerine karşı ağır önyargılı bir yapay zeka modeli tarifi gibi geliyor. Ancak Meta durumun böyle olmadığını söylüyor. Meta, “Ses kayıtlarının içeriği dini olsa da, analizimiz bunun modeli daha dini bir dil üretmeye yöneltmediğini gösteriyor” diye yazdı.
“Bunun, konuşma tanıma için büyük dil modellerine (LLM) veya diziden diziye modellere kıyasla çok daha kısıtlı olan bağlantıcı zamansal sınıflandırma (CTC) yaklaşımını kullanmamızdan kaynaklandığına inanıyoruz.” Ayrıca, dini kayıtların çoğu erkek konuşmacılar tarafından okunmasına rağmen, bu da bir erkek önyargısı oluşturmadı. Kadın ve erkek seslerinde eşit derecede iyi performans gösterdi. Meta, verileri daha kullanılabilir hale getirmek için bir hizalama modelini eğittikten sonra, şirketin etiketsiz veriler üzerinde eğitim verebilen “kendi kendine denetimli konuşma temsili öğrenme” modeli olan ‘wav2vec 2.0’ı kullandı. Alışılmadık veri kaynakları ile kendi kendini denetleyen bir konuşma modelinin birleştirilmesi etkileyici sonuçlar doğurdu. “Sonuçlarımız, Kitlesel Çok Dilli Konuşma modellerinin mevcut modellere kıyasla iyi performans gösterdiğini ve 10 kat daha fazla dili kapsadığını gösteriyor.” Meta özellikle MMS’i, OpenAI’ın Whisper’ı ile karşılaştırdı ve beklentileri aştı. “Kitlesel Çok Dilli Konuşma verileri üzerinde eğitilen modellerin kelime hata oranının yarısına ulaştığını gördük, ancak Kitlesel Çok Dilli Konuşma 11 kat daha fazla dili kapsıyor.” ifadelerine yer verdi.
Meta yeni modellerinin mükemmel olmadığı konusunda uyarıyor. Şirket, “Örneğin, konuşmadan metne modelinin belirli kelimeleri veya ifadeleri yanlış yazması riski vardır” diye yazdı. “Çıktıya bağlı olarak bu durum saldırgan ve/veya yanlış bir dille sonuçlanabilir. Yapay zeka teknolojilerinin sorumlu bir şekilde geliştirilmesi için yapay zeka topluluğu genelinde işbirliğinin kritik önem taşıdığına inanmaya devam ediyoruz.” ifadelerini kullandı. Meta, MMS’i açık kaynak araştırmaları için piyasaya sürdüğüne göre, teknolojinin dünya dillerini Büyük Teknoloji tarafından en sık desteklenen 100 veya daha azına indirgeme eğilimini tersine çevirebileceğini umuyor. Yardımcı teknoloji, TTS ve hatta VR/AR teknolojisinin herkesin kendi ana dillerinde konuşmasına ve öğrenmesine izin verdiği bir dünya görüyor. “Teknolojinin tam tersi bir etkiye sahip olduğu, bilgiye erişebildikleri ve teknolojiyi tercih ettikleri dilde konuşarak kullanabildikleri için insanları dillerini canlı tutmaya teşvik eden bir dünya öngörüyoruz.” ifadelerini kullandı.