Son aylarda yapay zeka sistemlerinde yaşanan gelişme tsunamisine rağmen, mobil cihazlarımızdaki sentetik asistanlar neredeyse 2011’deki kadar zor işitmeye devam ediyor. Ancak Meta AI tarafından yeni geliştirilen bir veri kümesi, konuşmayı “ifade düzeyinde” kümeleyerek bu tür otomatik konuşma tanıma (ASR) araçlarının performansını artırmayı vaat ediyor. Meta uzun zamandır ASR’lerinin performansını artırmaya çalışıyor ve onlara transkript yardımı olmadan eğitim vermeyi, 4.000’den fazla konuşma dilini tanımayı ve hatta insan uzmanlardan daha yüksek bir yeterlilikte dudak okumayı öğretiyor. Bununla birlikte, ASR (Automatic Speech Recognition) modellerini eğitmek için kullanılan veri kümelerinin çoğu demografik özelliklere (yaş grubu, cinsiyet, milliyet, İngilizce aksanı) göre düzenlenmiştir; bu da modellerin üzerinde eğitildiği telaffuz çeşitliliğini sınırlandırmakta ve sonuçta geniş bir kullanıcı kesitini anlama işlevlerini engellemektedir. Bunu aşmak için Meta AI, onun yerine bir ifade kümeleme yöntemine dayanan bir veri kümesi geliştirdi. Meta AI ekibi Çarşamba günkü blog yazısında “Bir veri kümesini konuşmacıların demografik bilgilerine göre bölmek yerine… önerdiğimiz algoritma konuşmayı ifade düzeyinde kümeliyor” dedi. “Tek bir küme, çeşitli konuşmacı gruplarından benzer ifadeler içerecektir. Daha sonra çeşitli kümeleri kullanarak modelimizi eğitebilir ve modelin farklı demografik gruplar arasında sonuçları nasıl etkilediğini ölçmek için adil veri kümelerini kullanabiliriz.” ifadelerine yer verildi.
Meta’nın elde ettiği veri kümesi, ücretli 595 ABD gönüllüsünden toplanan 27.000’den biraz fazla komut ifadesini içeriyor. Bu ifadeler, diğer araştırmacıların kendi modellerini ve dijital asistanlarını eğitmek için kullanabilecekleri yedi ana tema (müzik, yakalama, yardımcı programlar, bildirim kontrolü, mesajlaşma, arama ve dikte) etrafında dönüyor. İstemler arasında konuşmacılara bir şarkıyı nasıl sesli arayacakları ya da arkadaşlarıyla plan yapıp nerede buluşacaklarına nasıl karar verecekleri soruldu. Bu yeni sistemi değerlendirmek için Meta ilk olarak halka açık, İngilizce Facebook videoları üzerinde bir model eğitti. Araştırmacılar daha sonra bu modeli diğer iki veri kümesini kullanarak değerlendirdi: Meta’nın 2021’de yayınladığı Casual Conversations v1 ve 867 kişiden 48.000 sözlü ifade içeren “ASR için bir veri tedarikçisinden toplanan kimliksizleştirilmiş bir veri kümesi”. Bloga göre, ilk sonuçlar, “değerlendirme veri kümelerimizdeki tüm demografik gruplarda model performans iyileştirmeleri ile umut verici olduğunu kanıtladı, ancak en büyük kazanımlar aksanların daha kapsayıcı olmasıyla ilgili”. Genel olarak, kümeleme yöntemi kullanılarak ASR performansı yüzde 10 artarken, sesli komut alanında geleneksel olarak yeterince temsil edilmeyen bir demografik grup olan 66-85 yaş grubundan da büyük kazanımlar elde edildi. Araştırmacılar, “Önerdiğimiz algoritma, Meta’nın sorumlu yapay zekaya uzun vadeli odaklanmasının bir parçası ve adalet sorunlarını ele almaya yönelik bütünsel yaklaşımımızın sadece bir parçası” diye yazdı. İleriye dönük olarak ekip, sistemi diğer dillere uyarlamayı araştırıyor.