OpenAI kısa bir süre önce Voice Engine adlı yeni bir aracın küçük ölçekli bir ön izlemesini gerçekleştirdiğini duyurdu. Bu, 15 saniyelik bir ses örneğini analiz ederek herhangi bir konuşmacıyı taklit edebilen bir ses klonlama teknolojisidir. Şirket, duygusal ve gerçekçi sesler ile kulağa doğal gelen konuşma ürettiğini söylüyor. Teknoloji, şirketin önceden var olan metinden konuşmaya API ‘sine dayanıyor ve 2022’den beri üzerinde çalışılıyor. OpenAI, mevcut metinden konuşmaya API’sinde ve Sesli Okuma özelliğinde bulunan önceden ayarlanmış sesleri güçlendirmek için araç setinin bir sürümünü zaten kullanıyor. Şirketin resmi blogunda bir dizi örnek var ve sesler ürkütücü bir şekilde gerçeğe yakın. OpenAI, bu teknolojinin okuma yardımı, dil çevirisi, ani veya dejeneratif konuşma koşullarından muzdarip olanlara yardımcı olmak için yararlı olduğunu düşündüklerini söylüyor. Şirket, bir okul projesi için kaydedilen seslerden bir ‘Voice Engine (Ses Motoru)’ klonu oluşturarak konuşma bozukluğu sorunları olan bir hastaya yardımcı olan bir Brown Üniversitesi pilot programını gündeme getirdi. Potansiyel faydalarına rağmen, iyi niyetli olmayan kişilerin bu teknolojiyi kötüye kullanarak ciddi bir deepfake maskaralığına girişecekleri kesin, ki bu zaten bir sorun. Bunu akılda tutarak, Voice Engine prime time için tam olarak hazır değil, çünkü tam bir dağıtımdan önce karşılanması gereken ciddi gizlilik endişeleri var.
OpenAI bu teknolojinin “ciddi riskler taşıdığını ve özellikle seçim yılında bu risklerin daha da arttığını” kabul ediyor. Şirket, ürünün en az riskle piyasaya sürülmesini sağlamak için “hükümet, medya, eğlence, eğitim, sivil toplum ve ötesinden ABD’li ve uluslararası ortaklardan” geri bildirim aldığını söylüyor. Tüm önizleme test katılımcıları, OpenAI’ın rızası ya da yasal hakkı olmadan başka bir bireyin kimliğine bürünmeyi yasaklayan kullanım politikalarını kabul etti. Ek olarak, bu teknolojiyi kullanan herkes, seslerin yapay zeka tarafından üretildiğini izleyicilerine açıklamak zorunda kalacak. OpenAI, herhangi bir sesin kaynağını izlemek için filigranlama ve sistemin nasıl kullanıldığına dair proaktif izleme gibi güvenlik önlemleri uyguladı. Ürün resmi olarak piyasaya sürüldüğünde, tanınmış kişilere çok benzeyen yapay zeka tarafından oluşturulmuş konuşmacıları tespit eden ve engelleyen bir kullanılmayacak ses listesi olacak. Bu sunumun ne zaman gerçekleşeceğine gelince, OpenAI ağzını sıkı tutmaya devam ediyor. TechCrunch bazı potansiyel fiyatlandırma verilerini ortaya çıkardı ve görünüşe göre ElevenLabs gibi piyasadaki rakipleri alt edecek. Voice Engine bir milyon karakter başına 15 dolara mâl olabilir, bu da yaklaşık 162.500 kelimeye denk geliyor. Bu da Stephen King’in The Shining kitabının uzunluğu kadar. Bir sesli kitabı tamamlamak için kesinlikle bütçe dostu bir yol gibi görünüyor. Pazarlama materyalleri ayrıca iki kat daha pahalı olan HD versiyona da atıfta bulunuyor, ancak şirket bunun nasıl çalışacağını detaylandırmadı. OpenAI bu hafta büyük hamleler yaptı. “Stargate” adlı yapay zeka tabanlı bir süper bilgisayar inşa etmek için en yakın arkadaşı Microsoft ile yeni bir ortaklık kurduğunu duyurdu. The Information’a göre projenin 100 milyar dolara mâl olacağı bildiriliyor.
