1. Ana Sayfa
  2. Yapay Zeka
  3. Meta, metinden sese modeli Voicebox’ı tanıttı.

Meta, metinden sese modeli Voicebox’ı tanıttı.

featured

Bu İçeriği Paylaş

ya da bağlantıyı kopyala

Bugün, uzun zamandır (Nisan ayından beri) vaat edilen ölümsüz ünlü geleceğine bir adım daha yaklaştık. Meta, ChatGPT ve Dall-E’nin metin ve görüntü üretimi için yaptıklarını sözlü kelime için yapmayı vaat eden üretken metinden sese modeli Voicebox’ı tanıttı. Esasen, tıpkı GPT veya Dall-E gibi bir metinden çıktı üreteci. Sadece düzyazı veya güzel resimler oluşturmak yerine, ses klipleri çıkarıyor. Meta, sistemi “ses bağlamı ve metin verildiğinde konuşmayı doldurmak için eğitilmiş otoregresif olmayan bir akış eşleştirme modeli” olarak tanımlıyor. Sistem 50.000 saatten fazla filtrelenmemiş ses üzerinde eğitilmiştir. Özellikle Meta, İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce dillerinde yazılmış bir grup kamu malı sesli kitaptan kaydedilmiş konuşma ve transkriptleri kullandı.

Araştırmacılara göre, bu farklı veri seti, sistemin her iki tarafın konuştuğu dillerden bağımsız olarak daha fazla konuşma sesi üretmesini sağlıyor. “Sonuçlarımız, Voicebox tarafından üretilen sentetik konuşma üzerinde eğitilen konuşma tanıma modellerinin neredeyse gerçek konuşma üzerinde eğitilen modeller kadar iyi performans gösterdiğini ortaya koyuyor.” Dahası, bilgisayar tarafından üretilen konuşma, mevcut TTS modellerinde görülen yüzde 45 ila 70’lik düşüşe kıyasla yalnızca yüzde 1’lik bir hata oranı düşüşü ile performans gösterdi. Sisteme ilk olarak konuşma bölümlerini çevrelerindeki bölümlere ve bölümün transkriptine dayanarak tahmin etmesi öğretildi. Meta araştırmacıları, “Bağlamdan konuşmayı doldurmayı öğrenen model, daha sonra bunu, tüm girdiyi yeniden oluşturmak zorunda kalmadan bir ses kaydının ortasında bölümler oluşturmak da dahil olmak üzere konuşma oluşturma görevleri boyunca uygulayabilir” dedi.

Voicebox’ın ayrıca ses kliplerini aktif olarak düzenleyebildiği, konuşmadaki gürültüyü ortadan kaldırabildiği ve hatta yanlış söylenen kelimeleri değiştirebildiği bildiriliyor. Araştırmacılar, fotoğrafları temizlemek için görüntü düzenleme yazılımı kullanmak gibi, “Bir kişi konuşmanın hangi ham bölümünün gürültüden (köpek havlaması gibi) bozulduğunu belirleyebilir, kırpabilir ve modele bu bölümü yeniden oluşturması talimatını verebilir” dedi. Metin-Konuşma üreticileri bir süredir mevcut. Speechify veya Elevenlab’ın Prime Voice AI gibi modern yinelemeler çok daha yeteneklidir, ancak yine de konularını düzgün bir şekilde taklit etmek için büyük ölçüde kaynak materyal dağlarına ihtiyaç duyarlar ve sonra eğitilmesini istediğiniz her bir konu için başka bir veri dağı.

Meta’nın Flow Matching adını verdiği yeni bir sıfır atış metinden sese eğitim yöntemi sayesinde Voicebox bunu yapmıyor. Meta’nın yapay zekasının hem anlaşılabilirlik (yüzde 5,9’a karşı yüzde 1,9 kelime hata oranı) hem de “ses benzerliği” (SOA’nın 0,580’ine karşı 0,681 bileşik puan) açısından mevcut en son teknolojiden daha iyi performans gösterdiği ve tüm bunların yanı sıra günümüzün en iyi TTS sistemlerinden 20 kat daha hızlı çalıştığı bildirildiği için kıyaslama sonuçları yakın bile değil. Meta Cuma günü yaptığı açıklamada, “üretken konuşma modelleri için birçok heyecan verici kullanım durumuna” rağmen “potansiyel kötüye kullanım risklerini” gerekçe göstererek, ne Voicebox uygulamasının ne de kaynak kodunun şu anda halka açık olmadığını doğruladı. Şirket bunun yerine bir dizi ses örneğinin yanı sıra programın ilk araştırma makalesini yayınladı. Araştırma ekibi gelecekte bu teknolojinin ses teli hasarı olan hastalar için protezlerde, oyun içi NPC’lerde ve dijital asistanlarda kullanılmasını umuyor.

Meta, metinden sese modeli Voicebox’ı tanıttı.

Giriş Yap

gigahaber ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!