1. Ana Sayfa
  2. Yapay Zeka
  3. OpenAI, sesli ve görsel etkileşimleri harmanlayarak ChatGPT’ye seviye atlatıyor

OpenAI, sesli ve görsel etkileşimleri harmanlayarak ChatGPT’ye seviye atlatıyor

featured
service
0
Paylaş

Bu İçeriği Paylaş

ya da bağlantıyı kopyala

Yapay zeka etkileşiminin manzarası, ayrılmış modalitelerden uzaklaşarak akıcı, birleşik bir kullanıcı deneyimine doğru önemli bir mimari dönüşüm geçiriyor. OpenAI, kısa süre önce ChatGPT ekosistemine, özellikle kullanıcıların hem web platformlarında hem de mobil uygulamalarda ses moduyla nasıl etkileşim kurduklarını hedefleyen önemli bir güncelleme uyguladı. Bu gelişme, geçmişteki izole ses ortamlarından uzaklaşarak sesli etkileşimleri doğrudan metin sohbet akışına entegre ediyor. Konuşulan kelime ile yazılı metin arasındaki bariyeri ortadan kaldırarak, platform, daha doğal bir iletişim ritmi oluşturuyor. Kullanıcılar artık sadece sesli arayüz veya sadece metin penceresi arasında seçim yapmak zorunda değil; bunun yerine, iki ortam artık bir arada var oluyor ve konuşulan sorguların zengin, görsel ve metinsel yanıtlarla eşzamanlı olarak sonuçlandığı dinamik bir alışverişe olanak tanıyor.

Bunları okudun mu?
YouTube-894302984343247823478634823
YouTube, doğrudan mesajlaşma mimarisini yeniden uygulamaya koyuyor
Instagram-258852224454242
Instagram, genç kullanıcılar için sunduğu yeni simgelerle Z kuşağının kalbini kazanmaya çalışacak
Google-I-O-821378612376217836872387
Google I/O 2025 açılış konuşmasında duyurulan her şey
Amazon-4545453
Amazon Nova Sonic: İnsan-Makine Etkileşimini Yeniden Tanımlayan Yapay Zeka Ses Modeli
Amazon-TikTok-4543545435453
Amazon, TikTok’u satın almaya aday olarak ikna edici bir teklifle çıkıyor
Google-Gemini-4324789237983298
Google Gemini, iOS’ta bağımsız bir uygulama başlatacak

Dalga Formu Mekanizmasıyla Sorunsuz Entegrasyon

Sesli etkileşimi başlatma, erişilebilirlik ve bağlamın korunmasına öncelik vermek için basitleştirilmiştir. Bu etkileşimin mekanizması, standart metin giriş alanının yanında bulunan ince ama belirgin bir “dalga formu” simgesidir. Bu kullanıcı arayüzü seçimi kasıtlıdır ve kullanıcıya sesin mevcut sohbetin bir uzantısı olduğunu, ondan ayrılmadığını belirtir. Önceden, ses özelliklerini etkinleştirmek, kullanıcıyı yüzen kürelerin karakterize ettiği sürükleyici, soyut bir arayüze taşır ve görsel erişimi, önceki konuşma geçmişine etkili bir şekilde keserdi. Yeni güncelleme, kullanıcıyı devam eden sohbet dizisi içinde tutar. Bu satır içi işlevsellik, kullanıcı konuşurken sohbetin gerçek zamanlı transkriptini görebilmesini sağlar, doğruluğu güçlendirir ve AI’ın, konuşulan komutları nasıl yorumladığını anında doğrulamaya olanak tanır.

Gözden Kaçmasın
thumbnail

X, ‘Chat’ adı altındaki yenilenen mesajlaşma platformunu resmi olarak duyurdu

Haberi görüntüle

Görsel Bağlamsallaştırma

Bu güncellemenin gerçek gücü, çok modlu çıktı yeteneklerinde yatıyor. Sesli etkileşimler genellikle görsel temelden yoksundur, ancak OpenAI, ChatGPT’nin sesli yanıtlarının yanı sıra görsel yardımcılar da üretmesini sağlayarak bu sorunu çözdü. Şirketin yaptığı bir gösterimde, yerel mutfak mekanlarıyla ilgili bir sorgu, sadece sesli bir listeyle sonuçlanmadı; AI, popüler fırınları vurgulayan bir harita oluşturdu ve Tartine’den yüksek çözünürlüklü pasta fotoğrafları gösterdi. Bu özel örnek, kullanışlılık açısından büyük bir sıçramayı işaret etmektedir. Bir kullanıcı fiziksel konumlar veya somut öğeler hakkında soru sorduğunda, AI artık gerekli görsel doğrulamayı (navigasyon için haritalar ve seçim için görüntüler) sağlayarak bu boşluğu doldurabilmektedir. Böylece kullanıcı ses akışından çıkmak veya bu öğeleri manuel olarak aramak zorunda kalmamaktadır.

Gözden Kaçmasın
thumbnail

13 yaşın altındaki çocuklar yakında Google Gemini’a denetimli olarak erişebilecek

Haberi görüntüle

Kullanıcı Tercihi ve Arayüz Esnekliği

Sıralı entegrasyona geçiş, varsayılan yol olarak görülse de, OpenAI kullanıcıların tercihlerine ve arayüz özelleştirmesine olan bağlılığını sürdürmüştür. Bazı kullanıcıların orijinal ses deneyiminin odaklanmış, minimalist estetiğini tercih edebileceğini fark eden geliştiriciler, ayarlar menüsüne bir geçiş seçeneği eklemiştir. Kullanıcılar, ChatGPT ayarlarının Ses Modu bölümüne giderek “Ayrı Mod”u etkinleştirebilirler. Mevcut özellik, orijinal “kürelerle dolu” arayüz hayranlarının “bu özel görsel stile” geri dönmelerini sağlar. Bu ekleme, ürün tasarımına sofistike bir yaklaşımı vurgular ve inovasyonun gerekli olduğunu kabul ederken, geçiş döneminde eski iş akışlarının ve kullanıcılara ait konfor alanlarının saygı görmesi gerektiğini kabul eder.

Gözden Kaçmasın
thumbnail

Google, gelişmiş görüntü kalitesi için yeni JPEG kodlayıcısını tanıttı

Haberi görüntüle

Duyusal Girişleri Sentezleme

Ses ve görsel yanıtların birleşmesi, doğası gereği çok modlu bir model için mantıklı bir ilerlemedir. Kullanıcılar, ses, metin, görüntü ve video yüklemelerinin kombinasyonlarıyla OpenAI’ın modellerini zaten yönlendirerek, tartışmasız bir şekilde öncü olmuştur. Dolayısıyla, sistemin çıktısı da aynı derecede çeşitli ve medya açısından zengin olmalıdır. Giriş, karmaşık veri türlerinden oluşuyorsa, yanıt artık bu karmaşıklığa uyum sağlayabilir. Bu simetri, AI’ın sadece bedensiz bir ses değil, çalışmalarını “gösterebilen” kapsamlı asistan olduğu bir geri bildirim döngüsü oluşturur. AI, konuşurken neyi tarif ettiğini görebilme yeteneği, kullanıcının zihinsel yükünü azaltır, çünkü artık açıklamaları zihinsel olarak görselleştirmek zorunda kalmazlar, ekran üzerinde somut örnekleri hemen görebilirler.

Gözden Kaçmasın
thumbnail

Google, Android’de arayanları tanımlamak için ‘Arama’ özelliğini geliştiriyor

Haberi görüntüle

Rakip Teknolojilerle Karşılaştırma

Bu stratejik güncelleme, OpenAI’ı multimodal alanı domine etmeye çalışan diğer teknoloji devleriyle, özellikle de Google ile doğrudan rekabete sokuyor. Google, Gemini Live ile benzer alanları agresif bir şekilde keşfediyor ve ifade gücü yüksek konuşma katmanları deniyor. Yaklaşımları, AI’ın canlı videonun belirli yönlerini vurgulayabileceği ve bir tür artırılmış gerçeklik yardımı sunabileceği özellikleri içeriyor. OpenAI’ın mevcut uygulaması tam olarak aynı şekilde reaktif olmasa da (canlı video akışlarını gerçek zamanlı olarak analiz etmekten ziyade haritalar ve fotoğraflar gibi statik, bilgilendirici görseller oluşturmaya odaklanıyor), sesli konuşmanın bilgi yoğunluğunu önemli ölçüde artırıyor. Bu hamle, sesli asistanın, sesli bilgileri değiştirmek yerine ekranları kullanarak geliştirebilen çok modlu bir yardımcıya dönüştüğü daha geniş bir endüstri trendini işaret ediyor.

Gözden Kaçmasın
thumbnail

Meta, Threads için özel akışları test ediyor

Haberi görüntüle

Dizinlenmiş Görsel-İşitsel İçeriğin Geleceği

Teknik açıdan bakıldığında, bu güncelleme sohbet oturumu içinde bilginin dizinlenmesi ve geri getirilme şeklini temelden değiştiriyor. Sesli etkileşimleri transkribe ederek görsel meta verilerle (haritalar, fotoğraflar) birleştiren sohbet geçmişi, aranabilir, zengin bir bilgi deposu haline geliyor. Konuşulan bir sohbet artık geçici değil; sohbet günlüğünde kalıcı, görsel bir iz bırakıyor. Araştırma, seyahat planlama veya yaratıcı beyin fırtınası için bu araçları kullanan kişiler için, geri kaydırıp konuşma sırasında sağlanan haritayı görebilme özelliği, salt ses arayüzlerinin sunamayacağı bir fayda katmanı ekler. Bu kalıcılık, ses işlevselliğini Büyük Dil Modellerinin temel güçleriyle uyumlu hale getirir: “Karmaşık bilgi yapılarını insan kullanıcılar için kolayca sindirilebilir bir şekilde üretme, düzenleme ve sunma yeteneği.”

OpenAI, sesli ve görsel etkileşimleri harmanlayarak ChatGPT’ye seviye atlatıyor
+ - 0

Giriş Yap

55.000+ üyeye sahip gigahaber ailesine siz de hemen katılın veya oturum açın.

Bu Haberi gAI Zetta'ya Sor!