Geliştirici Stability AI, Stable Diffusion’ın üretken sanatının artık canlandırılabileceğini duyurdu. Şirket, kullanıcıların tek bir görüntüden video oluşturmasına olanak tanıyan Stable Video Diffusion adlı yeni bir ürünü, araştırma önizlemesinde yayınladı. Şirket, “Bu son teknoloji ürünü üretken yapay zeka video modeli, her türden herkes için modeller oluşturma yolculuğumuzda önemli bir adımı temsil ediyor” diye yazdı. Yeni araç, her biri 576×1024 çözünürlükte saniyede 3 ila 30 kare arasında hızlarda 14 ila 25 kare uzunluğunda üretebilen “iki görüntüden videoya model” şeklinde piyasaya sürüldü. Tek bir kareden çoklu görünüm sentezi yapabiliyor ve çoklu görünüm veri kümelerinde ince ayar gerçekleştirebiliyor. Şirket, Runway ve Pika Labs metin-video platformlarıyla karşılaştırarak, “Temel formlarında piyasaya sürüldüklerinde, harici değerlendirme yoluyla, bu modellerin kullanıcı tercihi çalışmalarında önde gelen kapalı modelleri geride bıraktığını gördük” dedi. Stable Video Diffusion bu noktada sadece araştırma amaçlı kullanılabilir, gerçek dünya veya ticari uygulamalar için değil. Stability AI, potansiyel kullanıcıların “metinden videoya bir arayüz içeren yaklaşan bir web deneyimine” erişim için bir bekleme listesine kaydolabileceğini yazdı. Araç reklamcılık, eğitim, eğlence ve daha birçok sektördeki potansiyel uygulamaları sergileyecek.
Yayınlanan videoda gösterilen örneklerin nispeten yüksek kalitede olduğu ve rakip üretici sistemlerle eşleştiği görülüyor. Bununla birlikte, şirketin yazdığına göre bazı sınırlamaları var. Nispeten kısa video üretiyor (4 saniyeden az), mükemmel fotogerçekçilikten yoksun, yavaş kaydırmalar dışında kamera hareketi yapamıyor, metin kontrolü yok, okunaklı metin üretemiyor, insanları ve yüzleri düzgün bir şekilde oluşturamayabiliyor. Araç milyonlarca videodan oluşan bir veri seti üzerinde eğitildi ve daha sonra daha küçük bir set üzerinde ince ayar yapıldı; Stability AI yalnızca araştırma amacıyla kamuya açık olan videoları kullandığını söyledi. Stability AI’ın kısa bir süre önce Getty Images tarafından görüntü arşivlerini kazıması nedeniyle dava edildiği göz önüne alındığında, veri setinin kaynağı önemli. Video, içerik oluşturmayı basitleştirme potansiyeli nedeniyle üretici yapay zeka için önemli bir hedeftir. Bununla birlikte, deepfake’ler, telif hakkı ihlalleri ve daha fazlası yoluyla kötüye kullanım için en fazla potansiyele sahip bir araç. TechCrunch, ChatGPT ürünüyle OpenAI’ın aksine, Stability’nin Stable Diffusion ürününü ticarileştirmede daha az başarılı olduğunu ve yüksek oranda nakit harcadığını belirtti. Ve geçen hafta, Stability AI ses başkan yardımcısı Ed Newton-Rex, üretken AI modellerini eğitmek için telif hakkıyla korunan içerik kullanımı nedeniyle istifa etti.