OpenAI Perşembe günü, metin komutlarından bir dakikaya kadar uzunlukta yüksek çözünürlüklü videolar üreten yepyeni bir model olan Sora’yı duyurdu. Japonca’da “gökyüzü” anlamına gelen Sora, yakın zamanda genel kullanıma sunulmayacak. Bunun yerine OpenAI, zararlarını ve kötüye kullanım potansiyelini değerlendirecek küçük bir akademisyen ve araştırmacı grubunun kullanımına sunuyor. Şirket, web sitesinde yaptığı açıklamada, “Sora birden fazla karakter, belirli hareket türleri ve özne ile arka planın doğru ayrıntılarıyla karmaşık sahneler oluşturabiliyor” dedi. “Model yalnızca kullanıcının komut isteminde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor.” ifadelerini kullandı. OpenAI’ın web sitesinde paylaştığı Sora tarafından üretilen videolardan biri, kiraz çiçeği yaprakları ve kar taneleri etraflarında uçuşurken kar yağışlı Tokyo şehrinde yürüyen bir çifti gösteriyor. Bir diğerinde ise gerçekçi görünümlü yünlü mamutlar, bembeyaz sıradağların fonunda karlı bir çayırda yürürken gösteriliyor. OpenAI, modelin dilin derinlemesine anlaşılması sonucunda çalıştığını ve bunun da metin komutlarını doğru bir şekilde yorumlamasını sağladığını söylüyor. Yine de, gördüğümüz tüm yapay zeka görüntü ve video oluşturucuları gibi Sora da mükemmel değil.
Örneklerden birinde, bir Dalmaçyalı’nın pencereden baktığı ve insanların “kanal sokaklarında yürüdüğü ve bisiklete bindiği” bir video isteyen komut, videodaki insanları ve sokakları tamamen atlıyor. OpenAI ayrıca modelin neden-sonuç ilişkisini anlamakta zorlanabileceği konusunda da uyarıyor. Örneğin kurabiye yiyen bir kişinin videosunu oluşturabiliyor ama kurabiyede ısırık izleri olmayabiliyor. Sora ilk metin-video modeli değil. Meta, Google ve Runway gibi diğer şirketler de ya metinden videoya araçlarını tanıttı ya da halka açtı. Yine de, başka hiçbir araç şu anda 60 saniye kadar uzun videolar oluşturamıyor. Sora ayrıca diğer modeller gibi kare kare bir araya getirmek yerine tüm videoları bir kerede oluşturuyor, bu da videodaki konuların geçici olarak görüntüden çıksalar bile aynı kalmasını sağlıyor. Metin-video araçlarının yükselişi, gerçekçi görünen sahte görüntüleri daha kolay üretme potansiyelleri konusunda endişelere yol açtı. Washington Üniversitesi’nde yapay zeka konusunda uzmanlaşmış bir profesör ve siyasi kampanyalardaki dezenformasyonu tespit etmek için çalışan True Media’nın kurucusu Oren Etzioni, The New York Times’a verdiği demeçte, “Bu tür şeylerin dar çekişmeli bir seçimi etkilemesinden dolayı kesinlikle dehşete düşüyorum” dedi. Üretken yapay zeka daha geniş anlamda, bu teknolojinin işlerinin yerini almak için kullanılmasından endişe duyan sanatçıların ve üretken profesyonellerin tepkisine yol açtı. OpenAI, aracı kamuya sunmadan önce test etmek için yanlış bilgilendirme, nefret dolu içerik ve önyargı gibi alanlarda uzmanlarla birlikte çalıştığını söyledi. Şirket ayrıca Sora tarafından üretilen videoları tespit edebilmesi için videolara meta veri ekleyebilecek araçlar geliştiriyor. Şirket, Times’a Sora’nın nasıl eğitildiğini anlatmayı reddetti, ancak hem “kamuya açık videoları” hem de telif hakkı sahiplerinden lisanslı videoları kullandığını belirtti.