Meta’nın yapay zeka uzmanları Video Joint Embedding Predictive Architecture (V-JEPA) adlı yeni bir model oluşturdu. Diğer büyük dil modellerinin (LLM’ler) aksine, bu model metin yerine videolardan öğreniyor. Meta’nın FAIR grubu başkanı Yann LeCun, “Amacımız, insanlar gibi öğrenebilen, karmaşık görevleri tamamlama hizmetinde öğrenmek, uyum sağlamak ve planları verimli bir şekilde oluşturmak için çevrelerindeki dünyanın iç modellerini oluşturan gelişmiş makine zekası oluşturmaktır” dedi. V-JEPA, etiketlenmemiş videoları analiz ederek ve kısa kesinti anları sırasında ekranın belirli bir alanında neler olabileceğini anlayarak öğrenir. Üretken modellerin aksine, V-JEPA dünyanın içsel bir anlayışını oluşturuyor. Meta araştırmacıları, video maskeleme ile ön eğitimden sonra V-JEPA’nın “nesneler arasındaki son derece ayrıntılı etkileşimleri tespit etme ve anlama” konusunda başarılı olduğunu söylüyor.
Şef LeCun, V-JEPA’nın şirketin Yapay Genel Zeka’ya (AGI) doğru ilk adımı olabileceğine inanıyor. Meta’nın bu son araştırması, artırılmış gerçeklik gözlükleri ve dünya modeli konsepti üzerindeki çalışmalarını büyük ölçüde etkileyebilir. AR gözlükleri, kullanıcıların görevleri yerine getirmelerine ve daha fazla eğlenmelerine yardımcı olmak için hangi dijital içeriğin görüntüleneceğini tahmin eden bir yapay zeka asistanının beyni olarak böyle bir model kullanacaktır. Dünya modeli, gözlüğün ötesindeki ortamın görsel-işitsel bir kavrayışına sahip olacaktır. V-JEPA, yapay zeka modellerinin eğitilme şeklini değiştirebilir ve bu modelleri potansiyel olarak daha küçük geliştiriciler için daha erişilebilir hale getirebilir. Meta, V-JEPA’nın videolarına ses eklemeyi ve modele öğrenmesi için ek bir veri katmanı sağlamayı amaçlıyor. Tıpkı bir çocuğun sessiz bir TV izlemesi ve ardından sesi açması gibi. Şirket, V-JEPA modelini Creative Commons ticari olmayan lisansı altında yayınlayarak araştırmacıların modeli denemesine ve muhtemelen yeteneklerini geliştirmesine olanak tanıyor.