Meta’nın yeni çevirmeni, 100 adet dili konuşmak için tek bir model kullanıyor

22 Ağustos 2023, 22:10

Modern yapay zeka çeviri yöntemleri, insanlığın yaklaşık 6.500 sözlü ve yazılı iletişim sistemini birbirleri arasında doğru bir şekilde dönüştürmede fazlasıyla yeterli olduğunu kanıtlıyor. Sorun şu ki, bu modellerin her biri yalnızca bir veya iki görevi gerçekten iyi yapma eğilimindedir. Metni konuşmaya, konuşmayı metne veya iki set arasında çevirme ve dönüştürme. Bu nedenle, Google Translate veya Facebook’un sayısız dil hizmetinde görülen genelleştirilmiş performansı oluşturmak için bir grup modeli üst üste koymak zorunda kalırsınız. Bu, hesaplama açısından yoğun bir süreçtir, bu nedenle Meta her şeyi yapabilen tek bir model geliştirdi. Meta’nın Salı günkü blogunda SeamlessM4T’nin “konuşma ve metin arasında sorunsuz bir şekilde çeviri yapan ve yazıya döken temel bir çok dilli ve çok görevli model” olduğu belirtiliyor. Konuşmadan metne ve metinden metne işlevleri için yaklaşık 100 dilden herhangi biri arasında çeviri yapabilir, konuşmadan konuşmaya ve metinden konuşmaya aynı dilleri girdi olarak destekler ve İngilizce de dahil olmak üzere diğer 36 dilden herhangi birinde çıktı verir. Meta’nın araştırma ekibi blog yazısında SeamlessM4T’nin “desteklediğimiz düşük ve orta kaynak dilleri için performansı önemli ölçüde artırdığını” ve “İngilizce, İspanyolca ve Almanca gibi yüksek kaynak dillerinde güçlü performansı” koruduğunu belirtiyor.

Meta, SeamlessM4T’yi, çeşitli modal çevirilerin yanı sıra otomatik konuşma tanımayı da yerel olarak gerçekleştiren mevcut PyTorch tabanlı çok görevli UnitY model mimarisinden oluşturdu. Ses kodlaması için BERT 2.0 sistemini kullanıyor, girdileri analiz için bileşen belirteçlerine ayırıyor ve sözlü yanıtlar üretmek için bir HiFi-GAN birim ses kodlayıcısı kullanıyor. Meta ayrıca ‘SeamlessAlign’ olarak adlandırılan devasa bir açık kaynak konuşmadan konuşmaya ve konuşmadan metne paralel derlem oluşturmuştur. Bloga göre şirket, “443.000 saatten fazla konuşmayı metinlerle otomatik olarak hizalamak ve yaklaşık 29.000 saat konuşmadan konuşmaya hizalama oluşturmak” için halka açık depolardan “on milyarlarca cümle” ve “dört milyon saat” konuşma çıkardı. SeamlessM4T’nin sağlamlık açısından test edildiğinde, arka plan gürültülerine ve konuşmacı tarzı değişikliklerine karşı (mevcut en son teknolojiye sahip) selefinden sırasıyla yüzde 37 ve yüzde 48 daha iyi performans gösterdiği bildirildi. Önceki makine çevirisi çabalarının çoğunda olduğu gibi ister Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) veya iddialı No Language Left Behind (NLLB) projesi olsun, SeamlessM4T açık kaynaklı olarak sunuluyor. Ekip, “SeamlessM4T’nin yapay zeka topluluğunun evrensel çoklu görev sistemleri oluşturma arayışında önemli bir atılım olduğuna inanıyoruz” diye yazdı. “Açık bilim yaklaşımımıza uygun olarak, araştırmacıların ve geliştiricilerin bu teknolojiyi geliştirebilmeleri için modelimizi herkese açık olarak paylaşmaktan heyecan duyuyoruz.” ifadeleri kullanıldı. SeamlessM4T ile kendiniz çalışmak istiyorsanız, modeli, eğitim verilerini ve belgeleri indirmek için ‘GitHub’a gidin.

Meta’nın yeni çevirmeni, 100 adet dili konuşmak için tek bir model kullanıyor

Meta’nın yeni çevirmeni, 100 adet dili konuşmak için tek bir model kullanıyor

Yorumunuz Önemli İptal

Google'ınızda Bizi Haber Kaynağı Yapın

gAI Zetta

Merhaba, Ziyaretçi 👋

Meta’nın yeni çevirmeni, 100 adet dili konuşmak için tek bir model kullanıyor

Bu İçeriği Paylaş

ya da bağlantıyı kopyala

Yorumunuz Önemli İptal

Google'ınızda Bizi Haber Kaynağı Yapın

gAI Zetta

Merhaba, Ziyaretçi 👋