Muhtemelen ChatGPT’nin de dahil olduğu dil modelleri, orijinal kaynağa atıfta bulunmadan eğitim verilerinden kavramları yeniden ifade ettiğinde ve yeniden kullandığında intihal ile ilgili endişeler ortaya çıkmaktadır. Öğrenciler bir sonraki ödevlerini bir sohbet robotu ile bitirmeden önce biraz düşünmek isteyebilirler. Penn Üniversitesi öncülüğünde konuyu özel olarak ele alan ilk çalışmayı gerçekleştiren bir araştırma ekibine göre, kullanıcı istemlerine yanıt olarak metin üreten dil modelleri, içeriği birden fazla şekilde intihal ediyor. İntihal; bir kişinin eserinde başka kişilerin ifade, buluş veya düşüncelerini kaynak göstermeksizin kendisine aitmiş gibi kullanması anlamına gelir. İntihal bir tür sahtekârlık ve hırsızlıktır. İntihal ve fikir hırsızlığı birçok farklı şekilde ortaya çıkabilir, örneğin başkasının yazılarını aynen kopyalamak intihal olacağı gibi, yabancı yayınlardan bazı bilgileri başka bir dile çevirerek kullanmak ya da buradaki fikirleri kaynak belirtmeden kullanmak da intihal olarak değerlendirilir.
Penn State’te bilişim bilimleri ve teknoloji profesörü olan Dongwon Lee, “İntihalin farklı çeşitleri var,” diyor. “Dil modellerinin yalnızca kopyalayıp yapıştırmakla kalmayıp, farkında olmadan daha sofistike intihal biçimlerine başvurup başvurmadığını görmek istedik.” ifadelerini kullandı. Araştırmacılar üç tür intihali tespit etmeye odaklandı; kelimesi kelimesine ya da doğrudan kopyalayıp yapıştırma; başka kelimelerle ifade etme ya da orijinal kaynağa atıfta bulunmadan içeriği yeniden ifade etme ve yeniden yapılandırma, fikir ya da bir metindeki ana fikri uygun atıfta bulunmadan kullanma. Araştırmacılar, otomatik intihal tespiti için bir boru hattı oluşturdular ve OpenAI’ın GPT-2’sine karşı test ettiler çünkü dil modelinin eğitim verileri çevrimiçi olarak mevcuttu ve araştırmacıların oluşturulan metinleri GPT-2’yi önceden eğitmek için kullanılan 8 milyon belge ile karşılaştırmasına olanak tanıdı.
Bilim insanları, önceden eğitilmiş dil modelleri ve ince ayarlı dil modellerinde veya belirli konu alanlarına odaklanmak için daha fazla eğitilmiş modellerde intihal olup olmadığını test etmek için 210 bin kadar oluşturulmuş metin kullandılar. Bu durumda ekip, bilimsel belgelere, COVID-19 ile ilgili bilimsel makalelere ve patent taleplerine odaklanmak için üç dil modeline ince ayar yaptı. Oluşturulan her bir metne en çok benzeyen ilk 10 eğitim belgesini almak için açık kaynaklı bir arama motoru kullandılar ve kelimesi kelimesine, başka kelimelerle ifade etme ve fikir intihali örneklerini daha iyi tespit etmek için mevcut bir metin hizalama algoritmasını değiştirdiler. Ekip, dil modellerinin her üç intihal türünü de gerçekleştirdiğini, modeli eğitmek için kullanılan veri kümesi ve parametreler ne kadar büyükse, intihalin o kadar sık meydana geldiğini tespit etti.
Ayrıca, ince ayarlı dil modellerinin kelimesi kelimesine intihali azalttığını, ancak başka kelimelerle ifade etme ve fikir intihali örneklerini artırdığını belirttiler. Buna ek olarak, dil modelinin her üç intihal biçimiyle de bireylerin özel bilgilerini açığa çıkardığı örnekleri tespit ettiler. Araştırmacılar bulgularını 30 Nisan-4 Mayıs tarihleri arasında Austin, Teksas’ta gerçekleştirilecek olan 2023 ACM Web Konferansı’nda sunacaklar. Penn State Bilgi Bilimleri ve Teknolojisi Fakültesi’nde doktora öğrencisi olan başyazar Jooyoung Lee, “İnsanlar büyük dil modellerinin peşinden koşuyor çünkü model büyüdükçe üretim yetenekleri de artıyor,” diyor. “Aynı zamanda, eğitim külliyatı içindeki içeriğin özgünlüğünü ve oluşturuculuğunu tehlikeye atıyorlar. Bu önemli bir bulgu.” ifadelerini kullandı. Araştırmacılara göre çalışma, metin oluşturucular ve bunların ortaya çıkardığı etik ve felsefi sorular hakkında daha fazla araştırma yapılması gerektiğini vurguluyor.
Penn State’te doktora adayı olarak proje üzerinde çalışmaya başlayan Mississippi Üniversitesi Bilgisayar ve Bilgi Bilimi Yardımcı Doçenti Thai Le, “Çıktı cazip olsa bile dil modellerini kullanmak eğlenceli ve belirli görevler için verimli görünse de, bu onların pratik olduğu anlamına gelmez” dedi. “Uygulamada, metin oluşturucuların ortaya çıkardığı etik ve telif hakkı sorunlarına dikkat etmemiz gerekiyor.” dedi. Çalışmanın sonuçları yalnızca GPT-2 için geçerli olsa da, araştırmacıların oluşturduğu otomatik intihal tespit süreci, ChatGPT gibi daha yeni dil modellerine uygulanarak bu modellerin eğitim içeriğini intihal edip etmediği ve ne sıklıkla intihal ettiği belirlenebilir. Ancak araştırmacılar, intihalin test edilmesinin, geliştiricilerin eğitim verilerini kamuya açık hale getirmesine bağlı olduğunu söyledi. Bilim insanlarına göre mevcut çalışma, yapay zeka araştırmacılarının gelecekte daha sağlam, güvenilir ve sorumlu dil modelleri oluşturmalarına yardımcı olabilir. Şimdilik, bireyleri metin oluşturucuları kullanırken dikkatli olmaya çağırıyorlar.
Penn State’te Bilişim Bilimleri ve Teknoloji alanında Yardımcı Doçent olan Jinghui Chen, “yapay zeka araştırmacıları ile bilim insanları dil modellerini nasıl daha iyi ve daha sağlam hale getireceklerini araştırıyor, bu arada birçok kişi günlük yaşamlarında çeşitli üretkenlik görevleri için dil modellerini kullanıyor” dedi. “Dil modellerini bir arama motoru veya kodda hata ayıklamak için bir yığın taşması olarak kullanmak muhtemelen iyi olsa da, diğer amaçlar için, dil modeli intihal içerik üretebileceğinden, kullanıcı için olumsuz sonuçlara yol açabilir.” ifadelerini kullandı. Ayrıca Dongwon Lee, intihal sonucunun beklenmedik bir şey olmadığını da ifade etti. “Stokastik bir papağan olarak, dil modellerine insan yazılarını taklit etmeyi öğrettik ama onlara nasıl intihal yapmayacaklarını öğretmedik” dedi. “Şimdi sıra onlara daha düzgün yazmayı öğretmeye geldi ve önümüzde uzun bir yol var.” ifadelerini kullandı.