hatGPT, sohbet robotunun sesli komutlar ve görüntü tabanlı sorgularla başa çıkmasını sağlayacak bazı önemli güncellemeler alıyor. Kullanıcılar Android ve iOS’ta ChatGPT ile sesli görüşme yapabilecek ve tüm platformlarda görüntüleri ChatGPT’ye aktarabilecekler. OpenAI bu özellikleri hemen kullanıma sunuyor. Bu özellikler ilk etapta Plus ve Enterprise aboneleri tarafından kullanılabilecek, diğer kullanıcılar ise görüntü tabanlı özelliklere daha sonra erişebilecek. Bu özellikleri denemek istiyorsanız, ChatGPT uygulamasında sesli konuşmaları seçmeniz gerekecek (Ayarlar ve ardından Yeni Özellikler’e gidin). Mikrofon düğmesine dokunarak beş farklı ses arasından seçim yapabileceksiniz. OpenAI, ileri geri sesli konuşmaların “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebilen yeni bir metinden sese modeli tarafından desteklendiğini söylüyor. Şirket beş sesi profesyonel aktörlerin yardımıyla oluşturdu. Diğer taraftan, şirketin Whisper konuşma tanıma sistemi kullanıcının konuştuğu kelimeleri metne dönüştürüyor. Görüntü tabanlı işlevler de ilgi çekici. OpenAI, örneğin sohbet robotuna ızgaranızın bir fotoğrafını gösterebileceğinizi ve neden çalışmadığını sorabileceğinizi, buzdolabınızdakilerin bir fotoğrafına dayanarak bir yemek planlamasına yardımcı olmasını sağlayabileceğinizi veya fotoğrafını çektiğiniz bir matematik problemini çözmesini isteyebileceğinizi söylüyor. Microsoft, geçen hafta Surface etkinliği sırasında Copilot yapay zekasının Windows’ta matematik problemlerini çözme yeteneğini vurguladı. OpenAI, görüntü tanıma özelliklerini güçlendirmek için GPT-3.5 ve GPT-4 kullanıyor. ChatGPT’nin görüntü tabanlı işlevlerini kullanmak için fotoğraf düğmesine dokunarak (iOS veya Android’de önce artı düğmesine dokunmanız gerekir) bir fotoğraf çekin veya cihazınızdaki mevcut bir görüntüyü seçin. ChatGPT’ye birden fazla fotoğraf hakkında soru sorabilir ve görüntünün belirli bir kısmına odaklanmak için bir çizim aracı kullanabilirsiniz.
üncellemeleri duyuran bir blog yazısında OpenAI, zarar verme potansiyeline dikkat çekti. Kötü niyetli kişilerin kamuya mâl olmuş kişilerin (ve sıradan insanların) seslerini taklit etmesi ve belki de dolandırıcılık yapması mümkündür. Bu nedenle OpenAI, bu teknolojiyle ChatGPT sesli konuşmalarına odaklanıyor ve diğer sınırlı kullanım durumları üzerinde belirli ortaklarla çalışıyor. Görüntüler konusunda ise OpenAI, görme engelli ve az gören kişilerin, kendileriyle görüntülü görüşme yapan gönüllüler sayesinde çevrelerini daha iyi anlamalarına yardımcı olmak için kullanabilecekleri ücretsiz bir uygulama olan ‘Be My Eyes (Gözlerim Ol)’ ile çalıştı. OpenAI, “Kullanıcılar bize, uzaktan kumanda ayarlarınızı anlamaya çalışırken televizyonda birinin belirmesi gibi, arka planda insanların olduğu görüntüler hakkında genel konuşmalar yapmayı değerli bulduklarını söylediler” dedi. Şirket ayrıca, ChatGPT’nin görüntülerde görünen kişiler hakkında nasıl analiz yapabileceğini ve doğrudan ifadelerde bulunabileceğini de sınırladığını belirtti, “çünkü ChatGPT her zaman doğru değildir ve bu sistemler bireylerin mahremiyetine saygı duymalıdır.” ifadelerini kullandı. ‘GPT-4 with vision’ adını verdiği görüntü tabanlı işlevselliğin güvenlik özellikleri üzerine bir makale yayınladı. ChatGPT, görüntülerdeki İngilizce metinleri anlamada diğer dillere göre daha etkili. OpenAI, sohbet robotunun şimdilik diğer dillerde, özellikle de Romence olmayan alfabelerin kullanıldığı dillerde “kötü performans gösterdiğini” söylüyor. Bu nedenle, İngilizce bilmeyen kullanıcıların şimdilik görsellerdeki metinlerle başa çıkmak için ChatGPT’yi kullanmaktan kaçınmalarını öneriyor. Bu arada Spotify, ses tabanlı teknolojiyi ilginç bir amaç için kullanmak üzere OpenAI ile işbirliği yaptı. Şirket, podcast yayıncıları için ‘Sesli Çeviri’ adlı bir aracın pilot uygulamasını duyurdu. Bu araç, programda yer alan kişilerin seslerini kullanarak podcast’leri farklı dillere çevirebiliyor. Spotify, aracın orijinal konuşmacının sesini diğer dillere dönüştürdükten sonra konuşma özelliklerini koruyabildiğini söylüyor. Başlangıç olarak, Spotify belirli İngilizce tabanlı programları birkaç dile dönüştürüyor. Bazı yayınlanmış podcast bölümlerinin İspanyolca versiyonları şu anda mevcut, Fransızca ve Almanca versiyonları da bunu takip edecek.