Florence destekli Microsoft Vision kullanıma sunuluyor

8 Mart 2023, 16:33

İki yıl önce Microsoft, modern bilgisayarla görme modellerinin “tamamen yeniden düşünülmesi” olarak lanse ettiği bir yapay zeka sistemi olan Florence’ı duyurdu. O zamanki çoğu görüntü modelinin aksine, Florence hem “birleşik” hem de “çok modlu” idi; yani görüntülerin yanı sıra dili de anlayabiliyor ve altyazı oluşturmak gibi belirli uygulamalarla sınırlı kalmak yerine bir dizi görevi yerine getirebiliyor. Şimdi, Microsoft’un yapay zeka araştırmalarını ticarileştirmek için sürdürdüğü daha geniş kapsamlı çabaların bir parçası olarak Florence, Azure Bilişsel Hizmetler’deki Vision API’lerine yapılan güncellemenin bir parçası olarak geliyor. Florence destekli Microsoft Vision Services, otomatik altyazı ekleme, arka plan kaldırma ve video özetlemeden görüntü almaya kadar çeşitli özellikleriyle bugün mevcut Azure müşterileri için önizlemede kullanıma sunuluyor. “Florence milyarlarca görüntü-metin çifti üzerinde eğitildi. Sonuç olarak inanılmaz derecede çok yönlü” diyen Azure Yapay Zeka CVP’si John Montgomery, e-posta yoluyla verdiği bir röportajda şunları söyledi; “Florence’dan bir videodaki belirli bir kareyi bulmasını istediğinizde bunu yapabiliyor; Cosmic Crisp elması ile Honeycrisp elması arasındaki farkı söylemesini istediğinizde bunu yapabiliyor. “Microsoft gibi teknoloji devlerinin de dahil olduğu yapay zeka araştırma topluluğu, çok modlu modellerin daha yetenekli yapay zeka sistemlerine giden en iyi yol olduğu fikri etrafında giderek daha fazla birleşiyor. Doğal olarak, ‘multimodal’ modeller bir kez daha, dil ve görüntüler veya videolar ile ses gibi birden fazla modaliteyi anlayan modeller, unimodal modellerin basitçe yapamayacağı görevleri tek seferde gerçekleştirebilir (örneğin videolara altyazı ekleme).

Neden aynı amaca ulaşmak için birkaç “tek modlu” modeli bir araya getirmeyelim, örneğin sadece görüntüleri anlayan bir model ve sadece dili anlayan bir başka model gibi? Bunun birkaç nedeni var: Birincisi, multimodal modellerin bazı durumlarda ek modalitelerden gelen bağlamsal bilgiler sayesinde aynı görevde unimodal muadillerinden daha iyi performans göstermesidir. Örneğin, görselleri, fiyatlandırma verilerini ve satın alma geçmişini anlayan bir yapay zeka asistanının, yalnızca fiyatlandırma verilerini anlayan bir asistana göre daha iyi kişiselleştirilmiş ürün önerileri sunması muhtemeldir. İkinci neden ise, çok modlu modellerin hesaplama açısından daha verimli olma eğiliminde olması. Bu da işlemede hızlanmaya ve (muhtemelen) arka uçta maliyet düşüşüne yol açıyor. Microsoft’un kâr odaklı bir şirket olması, hiç şüphesiz bunun bir artısı. Peki ya Florence? Görüntüleri, videoları, dili ve bu modaliteler arasındaki ilişkileri anladığı için, görüntüler ile metinler arasındaki benzerliği ölçmek veya bir fotoğraftaki nesneleri bölümlere ayırmak, başka bir arka plana yapıştırmak gibi şeyler yapabilir.

Florence destekli Microsoft Vision kullanıma sunuluyor

Florence destekli Microsoft Vision kullanıma sunuluyor

Yorumunuz Önemli İptal

gAI Zetta

Merhaba, Ziyaretçi 👋

Florence destekli Microsoft Vision kullanıma sunuluyor

Bu İçeriği Paylaş

ya da bağlantıyı kopyala

Yorumunuz Önemli İptal

gAI Zetta

Merhaba, Ziyaretçi 👋