Sadece birkaç gün önce OpenAI, ChatGPT’nin çok beklenen ses modunu geciktirdiği için manşetlere çıkmıştı. Şirket, teknik sorunları ele almak ve yüksek bir kalite standardı sağlamak zorunda olduğunu söylemişti. Bu, yapay zekalı sohbet robotuyla konuşmayı dört gözle bekleyen herkes için bir tür hayal kırıklığı oldu. Ancak, size piyasada sadece sizinle konuşmakla kalmayıp ses tonunuzu da anlayabilen başka bir chatbot olduğunu söylesek? Kyutai adlı bir Fransız yapay zeka şirketi tarafından geliştirilen ‘Moshi’ye merhaba deyin. Moshi, güçlü Helium 7B dil modelinden yararlanarak Amazon’un Alexa veya Google Assistant’ına benzer gerçekçi konuşmalar sunmak üzere tasarlanmış bir yapay zeka sesli asistanıdır. Yeni sohbet robotu, çeşitli aksanlarda konuşabilmesi ve 70 farklı duygusal ve konuşma tarzı kullanabilmesiyle öne çıkıyor. Ayrıca siz onunla konuşurken sesinizin tonunu da anlayabiliyor. Moshi ayrıca aynı anda iki ses akışını idare edebiliyor ve böylece hem dinleyip hem de yanıt verebiliyor. Sesli asistanın lansmanı geçtiğimiz günlerde canlı olarak yayınlandı ve o zamandan beri manşetlerde yer alıyor. Tech Radar’da yer alan bir habere göre, Moshi’nin geliştirilmesinde Metinden Konuşmaya (TTS) teknolojisi aracılığıyla oluşturulan 100.000’den fazla sentetik diyalog kullanılarak kapsamlı bir ince ayar süreci gerçekleştirildi. Kyutai, sohbet robotunun ses kalitesini artırmak için profesyonel bir ses sanatçısıyla işbirliği yaparak Moshi’nin yanıtlarının doğal ve ilgi çekici olmasını sağladı.
Toms Guide’a göre şirket yaptığı açıklamada, “Bu yeni teknoloji türü, ilk kez bir yapay zeka ile pürüzsüz, doğal ve etkileyici bir şekilde iletişim kurmayı mümkün kılıyor” dedi. Demo sürümü mevcut olduğundan, Moshi’yi şu andan itibaren kendiniz deneyebilirsiniz. Tek yapmanız gereken “moshi.chat” adresine gitmek ve talimatları takip etmek. Şimdilik, AI sesli asistanla en fazla 5 dakika konuşabilirsiniz. Şirket, “Moshi deneysel bir konuşma yapay zekasıdır. Söylediği her şeyi bir tuz tanesi ile alın. Konuşmalar 5 dakika ile sınırlıdır. Moshi aynı anda hem düşünür hem de konuşur. Moshi her zaman dinleyebilir ve konuşabilir. Korsan rolü yapmasını, Lazanya yapmayı veya en son hangi filmi izlediğini sorun. Tüm tarayıcıları desteklemeye çalışıyoruz. Bulunduğunuz yere bağlı olarak, belki AB demosu daha iyi gecikme süresi sunacaktır.” dedi. Kyutai, Moshi’yi açık kaynaklı bir proje haline getirmeye kararlı gibi duruyor. Şirket, modelin kodunu ve çerçevesini paylaşarak inovasyonu teşvik etmeyi ve yapay zeka gelişimini çevreleyen etik kaygıları ele almayı amaçlıyor. Bu açık kaynak stratejisi, aralarında Fransız milyarder Xavier Niel’in de bulunduğu önde gelen zenginler tarafından destekleniyor. İleriye dönük olarak Kyutai, Moshi’ye yapay zeka ses tanımlama, filigranlama ve imza izleme sistemleri gibi gelişmiş özellikleri entegre etmeyi planlıyor. Bu eklemeler, yapay zeka tarafından üretilen ses için hesap verebilirlik ve izlenebilirlik sağlamaya yardımcı olacak ve yapay zeka teknolojisinde şeffaflığı teşvik edecek. Moshi ilgi görürse, diğer ses özellikli yapay zeka asistanları için bir katalizör görevi görebilir ve Alexa gibi mevcut sistemlerde büyük dil modellerinin benimsenmesini hızlandırabilir. Moshi tarafından sergilenen etkileyici yetenekler, sesli yapay zeka teknolojisi için umut verici bir geleceğe işaret ediyor.