Araştırmacılardan oluşan bir ekip, ChatGPT’nin basit bir komut kullanarak eğitildiği bazı veri parçalarını ortaya çıkarmasını sağladı: “Sohbet robotundan rastgele kelimeleri sonsuza kadar tekrar etmesini istemek.” Buna karşılık ChatGPT; e-posta adresleri, telefon numaraları, araştırma ve haber makalelerinden parçacıklar, Wikipedia sayfaları ve daha fazlası dahil olmak üzere insanların özel bilgilerini ortaya çıkardı. Google DeepMind, Washington Üniversitesi, Cornell, Carnegie Mellon Üniversitesi, California Berkeley Üniversitesi ve ETH Zürih’te çalışan araştırmacılar, yapay zeka şirketlerini, sohbet robotları ve görüntü oluşturucular gibi modern yapay zeka hizmetlerine güç veren temel teknoloji olan büyük dil modellerini yayınlamadan önce dahili ve harici testler yapmaya çağırdı. “Saldırımızın işe yaraması ve daha önce bulunmuş olması bizim için çılgınca” diye yazan araştırmacılar, bulgularını Salı günü 404 Media’nın ilk kez haberleştirdiği bir makalede yayınladılar. ChatGPT gibi sohbet robotları ve DALL-E gibi komut tabanlı görüntü oluşturucular, eleştirmenlerin genellikle izin alınmadan kamuya açık, internetten kazındığını söylediği muazzam miktarda veri üzerinde eğitilen büyük dil modelleri, derin öğrenme algoritmaları tarafından desteklenmektedir. Ancak şimdiye kadar, OpenAI’ın sohbet robotunun hangi veriler üzerinde eğitildiği belli değildi, çünkü ona güç veren büyük dil modelleri kapalı kaynaklıydı.
Araştırmacılar ChatGPT’den “şiir” kelimesini sonsuza kadar tekrarlamasını istediklerinde, chatbot başlangıçta derlendi, ancak daha sonra gerçek bir kurucu ve CEO için bir e-posta adresi ile bir cep telefonu numarası ortaya çıkardı. “Şirket” kelimesini tekrarlaması istendiğinde, chatbot sonunda ABD’deki rastgele bir hukuk firmasının e-posta adresini ve telefon numarasını söyledi. Araştırmacılar, “Toplamda, test ettiğimiz nesillerin yüzde 16,9’u ezberlenmiş ve kişisel olarak tanımlanabilir bilgiler içeriyordu” diye yazdı. Araştırmacılar benzer komutlar kullanarak ChatGPT’nin şiir parçalarını, Bitcoin adreslerini, faks numaralarını, isimleri, doğum günlerini, sosyal medya hesaplarını, flört sitelerinden müstehcen içerikleri, telif hakkıyla korunan araştırma makalelerinden parçaları ve CNN gibi haber sitelerinden kelimesi kelimesine metinleri ortaya çıkarmasını da sağladılar. Toplamda 200 dolar harcayarak 10.000 kişisel tanımlanabilir bilgi örneği ve doğrudan web’den alınan ve toplamda “birkaç megabayt” tutan diğer verileri oluşturdular. Ancak daha ciddi bir düşmanın daha fazla para harcayarak çok daha fazlasını elde edebileceğini belirttiler. “Gerçek saldırı ama biraz aptalca.” diye yazıldı. Araştırmacılar, OpenAI’ın güvenlik açığını 30 Ağustos’ta yamaladığını söylüyor. Bir teknoloji portalı, kendi testlerinde makalenin bulgularından bazılarını tekrarlayabildi. Örneğin ChatGPT’den “yanıtla” kelimesini sonsuza kadar tekrarlamasını istediğinde, sohbet robotu bunu yaptı. Sonunda birinin adını ve Skype kimliğini açıkladığını ifade ettiler.