Microsoft, sadece tek bir fotoğraf ve bir ses klibi kullanarak konuşan insan yüzlerinin hiper-gerçekçi videolarını oluşturabilen gelişmiş bir yapay zeka (AI) modeli olan VASA-1’i piyasaya sürdü. Ortaya çıkan sonuç, doğal görünümlü yüz ifadeleri ve baş hareketleriyle tamamlanan, sesle uyumlu senkronize dudak oynamalarını sergiliyor. Potansiyel uygulamalarına rağmen Microsoft, VASA-1 modeliyle bir ürün veya API yayınlamayı planlamadığını, ancak bunu sanal etkileşimli karakterler oluşturmak için kullanacağını açıkladı.
Microsoft’un halen geliştirilme aşamasında olan VASA-1’i, minimum başlangıç gecikmesiyle 40 fps’ye kadar 512x512p çözünürlüklü videolar üretebiliyor. Teknoloji devi bu bilgileri araştırma duyuru sayfasında paylaştı. Yapay zeka modelini gösteren bir video X kullanıcısı Kaio Ken tarafından paylaşıldı. Görüntüden videoya hizmeti, tek bir statik görüntüden bir dakikaya kadar yüksek kaliteli videolar üretebiliyor.
VASA-1, kullanıcılara ana göz bakış yönü, duygu ofsetleri, baş mesafesi ve daha fazlası dahil olmak üzere videonun çeşitli yönleri üzerinde ayrıntılı kontrol sunuyor. Bu kontroller, çıktının yönlerine göre yakından değiştirilmesine olanak tanımaktadır. İlginç bir şekilde, bu yapay zeka modeli; şarkı sesi, sanatsal fotoğraflar ve İngilizce olmayan konuşmalar kullanarak da videolar oluşturabiliyor. Microsoft araştırmacıları, bu işlevlerin başlangıçta verilerinde mevcut olmadığını ve model içinde kendi kendine öğrenme yeteneğine işaret ettiğini belirtti. VASA-1’in etkileyici yeteneklerine rağmen, deepfake’ler üretmek gibi potansiyel kötüye kullanımlara ilişkin endişeler dile getirilmiştir. Microsoft, yapay zeka modelini halka açıklamak niyetinde olmadığını ve sanal etkileşimli karakterler oluşturmak için kullanmayı planladığını belirtti. Şirket ayrıca bu tekniğin, sahtecilik tespitini ilerletme potansiyelinin de altını çizdi.