Öğrenen dil modelleri (LLM’ler) gelişmeye devam ettikçe, tıp alanı gibi alanlarda topluma nasıl fayda sağlayabileceklerine dair sorular da artıyor. Financial Times’ın ilk haberine göre, Cambridge Üniversitesi Klinik Tıp Fakültesi’nde yapılan yeni bir çalışmada, OpenAI’ın GPT-4’ünün bir oftalmoloji değerlendirmesinde neredeyse bu alandaki uzmanlar kadar iyi performans gösterdiği tespit edildi. PLOS Digital Health dergisinde yayınlanan çalışmada araştırmacılar LLM’yi, öncülü GPT-3.5’i, Google’ın PaLM 2’sini ve Meta’nın LLaMA’sını 87 çoktan seçmeli soruyla test etti. Beş uzman oftalmolog, üç stajyer oftalmolog ve iki uzman olmayan genç doktor aynı sahte sınava tabi tutuldu. Sorular, ışık hassasiyetinden lezyonlara kadar her konuda stajyerleri denemek için hazırlanmış bir ders kitabından alınmıştır. Kitabın içeriği kamuya açık değil, bu nedenle araştırmacılar LLM’lerin daha önce bu konuda eğitim almış olamayacağına inanıyor.
GPT-4 veya GPT-3.5 ile donatılmış ChatGPT’ye kesin cevap vermesi için üç şans verildi veya cevabı boş olarak işaretlendi. GPT-4, 87 sorudan 60’ını doğru yanıtlayarak stajyerlerden ve genç doktorlardan daha yüksek puan almıştır. Bu, stajyer doktorların 37 olan doğru cevap ortalamasından önemli ölçüde yüksek olmasıyla beraber, üç stajyerin 59,7 olan ortalamasını da geride bırakmıştır. Bir uzman oftalmolog sadece 56 soruyu doğru yanıtlarken, beşi ortalama 66,4 doğru yanıt vererek makineyi geride bıraktı. PaLM 2 49, GPT-3.5 ise 42 puan aldı. LLaMa 28 ile en düşük skoru alarak genç doktorların altında kalmıştır. Bu denemelerin 2023 yılının ortalarında yapılmış olması dikkat çekici. Bu sonuçların potansiyel faydaları olmakla birlikte, bazı riskler ve endişeler de bulunmaktadır. Araştırmacılar, çalışmanın özellikle belirli kategorilerde sınırlı sayıda soru sunduğunu, bunun da gerçek sonuçların farklı olabileceği anlamına geldiğini belirtmiştir. LLM’lerin “halüsinasyon görme” ya da bir şeyler uydurma eğilimleri de vardır. Alakasız bir gerçek olsa pek önemsenmeyebilir ama katarakt ya da kanser olduğunu iddia etmek başka bir boyut. LLM kullanımının pek çok örneğinde olduğu gibi, sistemler de nüanstan yoksundur ve yanlışlık için daha fazla fırsat oluşturur.