Stanford İnternet Gözlemevi’nden araştırmacılar, yapay zeka görüntü oluşturma araçlarını eğitmek için kullanılan bir veri setinin en az 1.008 doğrulanmış çocuk cinsel istismarı materyali örneği içerdiğini söylüyor. Stanford araştırmacıları, veri kümesindeki Çocuk Cinsel İstismarı Materyali (ÇCİM) varlığının, veriler üzerinde eğitilen yapay zeka modellerinin yeni ve hatta gerçekçi ÇCİM örnekleri üretmesine izin verebileceğini belirtiyor. Veri setini oluşturan ve kâr amacı gütmeyen LAION (Açık kaynaklı yapay zeka modelleri ve veri kümeleri yapan, kâr amacı gütmeyen bir kuruluş), 404 Media’ya yaptığı açıklamada, “yasadışı içeriğe karşı sıfır tolerans politikası uyguladıklarını ve tedbirli olmak adına, LAION veri setlerini yeniden yayınlamadan önce güvenli olduklarından emin olmak için geçici olarak kaldırdıklarını” söyledi. Kuruluş, veri setlerini ilk etapta yayınlamadan önce, yasadışı içeriği tespit etmek ve bunlardan kaldırmak için filtreler oluşturduğunu da sözlerine ekledi. Ancak 404 Media, LAION liderlerinin en azından 2021’den beri, sistemlerinin internetten milyarlarca görüntüyü süpürürken ÇCİM’yi alma olasılığı olduğunun farkında olduklarına işaret ediyor. Önceki raporlara göre, söz konusu LAION-5B veri seti “milyonlarca pornografi, şiddet, çocuk çıplaklığı, ırkçı alay etme görüntüleri (meme), nefret sembolleri, telif hakkıyla korunan sanat ve özel şirket web sitelerinden kazınmış eserler” içeriyor. Genel olarak, 5 milyardan fazla görüntü ve ilgili açıklayıcı başlıklar içeriyor (veri kümesinin kendisi herhangi bir görüntü içermiyor, daha ziyade kazınmış görüntülere ve alt metinlere bağlantılar içeriyor). LAION’un kurucusu Christoph Schuhmann bu yılın başlarında yaptığı açıklamada veri setinde herhangi bir ÇCİM’den haberdar olmadığını ancak verileri derinlemesine incelemediğini söyledi.
ABD’deki çoğu kurumun doğrulama amacıyla ÇCİM görüntülemesi yasa dışıdır. Bu nedenle, Stanford araştırmacıları potansiyel ÇCİM aramak için çeşitli teknikler kullandılar. Makalelerine göre, “algısal hash tabanlı tespit, kriptografik hash tabanlı tespit ve veri setindeki görüntü gömülerinden yararlanarak en yakın komşu analizi” kullandılar. Şüpheli ÇCİM (Çocuk Cinsel İstismarı Materyali) içeren 3.226 giriş buldular. Bu görüntülerin çoğunun ÇCİM olduğu PhotoDNA ve Kanada Çocuk Koruma Merkezi gibi üçüncü taraflarca teyit edildi. Stability AI kurucusu Emad Mostaque, LAION-5B verilerinin bir alt kümesini kullanarak Stable Diffusion’ı eğitti. Google’ın, ‘Imagen’ metinden görüntüye modelinin ilk araştırma sürümü LAION-400M üzerinde eğitildi, ancak bu hiçbir zaman yayınlanmadı; Google, Imagen’in sonraki yinelemelerinin hiçbirinin LAION veri kümelerini kullanmadığını söylüyor. Bir Stability AI sözcüsü Bloomberg’e yaptığı açıklamada, testten görüntüye sistemlerinin ÇCİM oluşturmak veya düzenlemek gibi yasadışı amaçlarla kullanılmasını yasakladığını söyledi. Sözcü, “Bu rapor, bir bütün olarak LAION-5B veri setine odaklanıyor. Stability AI modelleri bu veri setinin filtrelenmiş bir alt kümesi üzerinde eğitildi. Ayrıca, artık davranışları azaltmak için bu modellere ince ayar yaptık.” dedi. Stable Diffusion 2 (Stability AI’ın görüntü oluşturma aracının daha yeni bir versiyonu), veri setindeki ‘güvenli olmayan’ materyalleri büyük ölçüde filtreleyen veriler üzerinde eğitildi. Bloomberg, bunun kullanıcıların müstehcen görüntüler oluşturmasını daha zor hale getirdiğini belirtiyor. Ancak, halen internette mevcut olan Stable Diffusion 1.5’in aynı korumalara sahip olmadığı iddia ediliyor. Stanford makalesinin yazarları “Stable Diffusion 1.5’e dayanan ve güvenlik önlemleri uygulanmamış modeller kullanımdan kaldırılmalı ve mümkün olan yerlerde dağıtım durdurulmalıdır” diye yazdı.