Elon Musk tarafından kurulan OpenAI rakibi xAI, Grok’un görsel bilgileri işleyebilen ilk versiyonunu tanıttı. Grok-1.5V, şirketin sadece metinleri değil, aynı zamanda “belgeleri, diyagramları, çizelgeleri, ekran görüntülerini ve fotoğrafları” da işleyebilen birinci nesil çok modlu yapay zeka modelidir. xAI’ın duyurusunda, yeteneklerinin gerçek dünyada nasıl kullanılabileceğine dair birkaç örnek verildi. Örneğin, bir akış şemasının fotoğrafını gösterip Grok’tan bunu Python koduna çevirmesini isteyebilir, bir çizime dayalı bir hikaye yazmasını sağlayabilir ve hatta anlayamadığınız bir alaycı içeriği açıklamasını isteyebilirsiniz. Yeni sürüm, şirketin Grok-1.5’i tanıtmasından sadece birkaç hafta sonra geldi.
Bu model, selefine göre kodlama ve matematikte daha iyi olmanın yanı sıra, belirli sorguları daha iyi anlamak için daha fazla kaynaktan gelen verileri kontrol edebilmesi adına daha uzun bağlamları işleyebilecek şekilde tasarlandı. xAI, mevcut ve ilk test kullanıcılarının yakında Grok-1.5V’nin yeteneklerinden yararlanabileceğini söyledi, ancak kullanıma sunulması için kesin bir zaman çizelgesi vermedi. Şirket, Grok-1.5V’yi tanıtmanın yanı sıra ‘RealWorldQA’ adını verdiği bir kıyaslama veri seti de yayınladı. Yapay zeka modellerini değerlendirmek için RealWorldQA’nın 700 görselinden herhangi birini kullanabilirsiniz: Her öğe, kolayca doğrulayabileceğiniz, ancak Grok gibi çok modlu modelleri zorlayabilecek sorular ve yanıtlarla birlikte geliyor. xAI, teknolojisinin RealWorldQA ile OpenAI’ın GPT-4V ve Google Gemini Pro 1.5 gibi rakiplerine karşı test edildiğinde en yüksek puanı aldığını iddia etti.