Yapay zeka alanındaki kayda değer ilerlemeye rağmen, metinden görüntüye üreticiler yazım ve detay tanıma konularında sıkıntı yaşamaya devam ediyor. Örneğin, DALL-E gibi yapay zeka sistemleri, belirli bir mutfak için menü oluşturma görevi verildiğinde genellikle anlamsız çıktılar üretiyor. Alberta Üniversitesi’nde yapay zeka araştırmacısı ve yardımcı doçent olan Matthew Guzdial, bu modellerin çıktılarını tutarlı bir şekilde yapılandırmakta zorlandığını belirtti. Yapay zeka modelleri, ister görüntü ister metin üretici olsunlar, ayrıntılarla ilgili benzer sorunlarla karşılaşıyorlar. Lesan’ın kurucu ortağı ve DAIR Enstitüsü’nde araştırmacı olan Asmelash Teka Hadgu, görüntü oluşturucuların bir görüntüyü karmaşıklıktan çıkarıp yeniden yapılandırmak için difüzyon modelleri kullandığını açıklıyor.
Ancak bu algoritmalar, bariz olduğunu düşündüğümüz kurallara ilişkin doğal bir anlayıştan yoksundur ve metin üretme söz konusu olduğunda genellikle doğru temsilleri yeniden üretmekte başarısız olurlar. Mühendisler, veri setlerini, belirli nesnelerin nasıl görünmesi gerektiği konusunda yapay zekaya talimat vermek için özel olarak tasarlanmış eğitim modelleriyle destekleyerek yapay zekanın ayrıntı tanıma özelliğini geliştirebilirler. Ancak, yazım sorunlarını gidermek o kadar kolay değildir. Guzdial, “İngilizce dilinin gerçekten karmaşık olduğunu” ve bunun da yapay zekanın doğru yazım konusunda uzmanlaşmasını zorlaştırdığını ve bu alandaki kalıcı bir engele işaret ettiğini belirtti. Adobe Firefly gibi bazı yapay zeka modelleri hiç metin üretmeyecek şekilde programlanmıştır. “Restoranda menü” veya “reklam panosu” gibi basit istemler verildiğinde boş bir kağıt veya beyaz bir reklam panosu görüntüsü üretirler. Bununla birlikte, ayrıntılı istemler kullanırsanız bu koruma önlemleri atlanabilir ve bu tür önlemlerin sınırlarını ortaya çıkarır.