İnternetin yeni gözde oyuncağı ChatGPT, bazı şeyleri diğerlerinden daha iyi başarıyor. OpenAI’ın makine öğrenimi eğitimli sohbet robotu, kendisine sorduğunuz hemen her konuda akıcı bir şekilde akan cümleleri ve paragrafları bir araya getirebiliyor. Ancak güvenilir bir şekilde doğruyu söyleyemez. Metin tabanlı bir ruh sağlığı danışmanının inandırıcı bir ikamesi olarak hareket edebilir. Ancak fena olmayan bir teknoloji makalesi yazamaz. Northwestern Üniversitesi ve Chicago Üniversitesi araştırmacılarının Salı günü yayınladıkları bir ön baskı çalışmasına göre, yapay zeka metin üreticisinin yapabileceği şeyler listesinde, bilimsel hakemleri kandırmak da var. Yayınlanmış akademik bilim, makale gönderme ve ilgili alanlardaki insan uzmanlar tarafından gözden geçirme sürecine dayanır. Yeni çalışmanın yazarları, yapay zekanın bu hakemleri rutin olarak kandırabilmesi halinde, bilimsel dürüstlük krizini körükleyebileceği uyarısında bulunuyor.
Ön baskıda, araştırmacılar 50 gerçek, yayınlanmış tıbbi makale seçerek işe başladılar. Her birinin başlığını aldılar ve ChatGPT’ye “Lütfen [link] adresindeki [dergi] tarzında [başlık] makalesi için bilimsel bir özet yazın” komutunu verdiler. Ardından, toplam 100 örnek için gerçek ve sahte özetleri bir araya getirdiler. Araştırmacılar, dört tıp uzmanına incelemeleri için rastgele 25 özet atayarak, hiçbir araştırmacıya yinelenen başlıklara sahip örnekler verilmemesini sağladı. Çalışma araştırmacıları, deneklere özetlerin bir kısmının sahte, bir kısmının ise gerçek olduğunu söylemiştir; aksi takdirde, hakemler çalışma düzenine kör kalmıştır. Hakemler %68 oranında bir özetin ChatGPT ürünü olduğunu doğru tespit etmiştir. Ancak vakaların geri kalan %32’sinde denekler kandırılmıştır. Üstelik bu, sahte özetlerin sadece %8’inin listelenen dergi için özel biçimlendirme ve stil gerekliliklerini karşılamasına rağmen. Ayrıca, hakemler gerçek makale özetlerinin %14’ünü yanlışlıkla yapay zeka tarafından üretilmiş olarak tanımladı.
Çalışmanın araştırmacıları, ön baskıda “Hakemler, ikisi arasında ayrım yapmanın şaşırtıcı derecede zor olduğunu belirtti” diye yazdı. Hakemler, özetleri sıralarken, oluşturulan örneklerin daha belirsiz ve daha kalıplaşmış olduğunu düşündüklerini belirtmişlerdir. Ancak yine de, bu varsayımı uygulamak oldukça kasvetli bir doğruluk oranına yol açtı. Çoğu fen dersinde başarısız bir not verecek bir oran. Northwestern Tıp Fakültesi’nde göğüs hastalıkları uzmanı olan baş araştırmacı Catherine Gao, üniversite basınına yaptığı açıklamada, “Hakemlerimiz kendilerine verilen özetlerin bazılarının sahte olduğunu biliyorlardı, bu yüzden çok şüphelendiler” dedi. “Bu, vahşi doğada bir özet okuyan biri değil. Hakemlerimizin yapay zeka tarafından üretilenleri %32 oranında gözden kaçırmış olması, bu özetlerin gerçekten iyi olduğu anlamına geliyor. Birisi bu oluşturulan özetlerden birine rastlasa, bunun yapay zeka tarafından yazıldığını tespit edemeyeceğinden şüpheleniyorum.” ifadelerini kullandı.
Özetlerin insan hakemler tarafından incelenmesine ek olarak, çalışmanın yazarları gerçek ve sahte tüm örnekleri bir YZ çıktı dedektöründen geçirdi. Otomatik dedektör başarılı bir şekilde, ChatGPT özetlerine gerçek olanlardan çok daha yüksek puanlar (YZ üretme olasılığının daha yüksek olduğunu gösteren) atadı. YZ dedektörü, ikisi hariç tüm orijinal özetleri haklı olarak %0’a yakın sahte olarak puanlamıştır. Ancak, YZ tarafından üretilen vakaların %34’ünde, sahte örneklere 100 üzerinden 50’nin altında bir puan verdi; bu da sahte özetleri düzgün bir şekilde sınıflandırmakta hala zorlandığını gösteriyor. Ön baskıda, ChatGPT özetlerini bu kadar ikna edici kılan şeyin bir kısmının, yapay zekanın ölçeği çoğaltma yeteneği olduğu belirtildi. Tıbbi araştırmalar örneklem büyüklüğüne bağlıdır ve farklı çalışma türleri çok farklı sayıda denek kullanır. Çalışmanın yazarları, oluşturulan özetlerin, ilgili orijinallerle benzer (ancak aynı olmayan) hasta kohort boyutlarını kullandığını yazdı. Basın açıklamasında, “Yaygın olan hipertansiyon üzerine bir çalışma için ChatGPT on binlerce hastayı kohortuna dahil ederken, maymun çiçeği üzerine yapılan bir çalışmada çok daha az sayıda katılımcı vardı” denildi.
Yeni çalışmanın sınırlamaları var. Birincisi, örneklem büyüklüğü ve hakem sayısı azdı. Sadece bir yapay zeka çıkış dedektörü test edilmiştir. Ve araştırmacılar, ilerledikçe daha da ikna edici çalışmalar üretmeye çalışmak için yönlendirmelerini ayarlamadılar. Ek eğitim ve daha hedefli yönlendirmelerle, ChatGPT tarafından oluşturulan özetlerin daha da ikna edici olması mümkündür. Bu da suiistimallerle kuşatılmış bir alanda endişe verici bir ihtimal. “Kağıt fabrikaları” olarak adlandırılan kuruluşlar akademik yayıncılıkta halihazırda bir sorun teşkil ediyor. Bu kâr amaçlı kuruluşlar, genellikle intihal, sahte veya yanlış veriler içeren toplu dergi makaleleri üretiyor ve yazarlıklarını en yüksek teklifi verene satıyor, böylece alıcılar CV’lerini tahrif edilmiş araştırma kredisiyle doldurabiliyor. Makale gönderimleri oluşturmak için yapay zeka kullanma yeteneği, sahtekarlık endüstrisini daha da kazançlı ve üretken hale getirebilir. Gao haber açıklamasında, “Ve eğer diğer insanlar bilimlerini bu yanlış çalışmalar üzerine inşa etmeye çalışırlarsa, bu gerçekten tehlikeli olabilir” diye ekledi. Bilimsel disiplinlerin sahte yayınlarla dolup taştığı olası bir gelecekten kaçınmak için Gao ve yardımcı araştırmacıları, dergilerin ve konferansların tüm başvuruları yapay zeka çıktı tespitinden geçirmesini öneriyor.
Ancak haberler o kadar da kötü değil. ChatGPT, insan hakemleri kandırarak, akademik bilim insanlarının tarzında ustalıkla yazabildiğini açıkça göstermiştir. Dolayısıyla, bu teknolojinin araştırmacılar tarafından çalışmalarının okunabilirliğini artırmak için ya da kendi ana dilleri dışında yayın yapan araştırmacılar için eşitliği ve erişimi artırmak adına bir yazma yardımı olarak kullanılması mümkündür. Çalışmanın kıdemli yazarı ve Chicago Üniversitesi’nde veri bilimci olan Alexander Pearson basın açıklamasında, “Üretken metin teknolojisi bilimi demokratikleştirmek için büyük bir potansiyele sahip, örneğin İngilizce konuşmayan bilim insanlarının çalışmalarını daha geniş bir toplulukla paylaşmalarını kolaylaştırıyor” dedi. “Aynı zamanda, kullanım için en iyi uygulamalar üzerinde dikkatlice düşünmemiz zorunludur.” ifadelerini kullandı.