GPT-4, göz değerlendirmelerinde uzman doktorların seviyesine yakın performans gösterdi

19 Nisan 2024, 13:53

Öğrenen dil modelleri (LLM’ler) gelişmeye devam ettikçe, tıp alanı gibi alanlarda topluma nasıl fayda sağlayabileceklerine dair sorular da artıyor. Financial Times’ın ilk haberine göre, Cambridge Üniversitesi Klinik Tıp Fakültesi’nde yapılan yeni bir çalışmada, OpenAI’ın GPT-4’ünün bir oftalmoloji değerlendirmesinde neredeyse bu alandaki uzmanlar kadar iyi performans gösterdiği tespit edildi. PLOS Digital Health dergisinde yayınlanan çalışmada araştırmacılar LLM’yi, öncülü GPT-3.5’i, Google’ın PaLM 2’sini ve Meta’nın LLaMA’sını 87 çoktan seçmeli soruyla test etti. Beş uzman oftalmolog, üç stajyer oftalmolog ve iki uzman olmayan genç doktor aynı sahte sınava tabi tutuldu. Sorular, ışık hassasiyetinden lezyonlara kadar her konuda stajyerleri denemek için hazırlanmış bir ders kitabından alınmıştır. Kitabın içeriği kamuya açık değil, bu nedenle araştırmacılar LLM’lerin daha önce bu konuda eğitim almış olamayacağına inanıyor.

Bunları okudun mu?

Apple’ın bir sonraki büyük tasarımı kişisel robotlar olabilir

OPPO ve Meizu, telefonlarında yapay zeka entegrasyonunu benimsemeye başladı

Samsung, eller serbest deneyimi için Galaxy AI’ı Bixby ile entegre ediyor

Spotify, 236 milyon premium abonesi dahil aylık 600 milyon aktif kullanıcıya erişti

Suicide-Squad-Kill-the-Justice-League-786767

Suicide Squad: Kill the Justice League oyunu, tuhaf bir hatanın ardından çevrimdışı oldu

Çin, altı ay içinde geliştirilen 40 adet yapay zeka modelini onayladı

GPT-4 veya GPT-3.5 ile donatılmış ChatGPT’ye kesin cevap vermesi için üç şans verildi veya cevabı boş olarak işaretlendi. GPT-4, 87 sorudan 60’ını doğru yanıtlayarak stajyerlerden ve genç doktorlardan daha yüksek puan almıştır. Bu, stajyer doktorların 37 olan doğru cevap ortalamasından önemli ölçüde yüksek olmasıyla beraber, üç stajyerin 59,7 olan ortalamasını da geride bırakmıştır. Bir uzman oftalmolog sadece 56 soruyu doğru yanıtlarken, beşi ortalama 66,4 doğru yanıt vererek makineyi geride bıraktı. PaLM 2 49, GPT-3.5 ise 42 puan aldı. LLaMa 28 ile en düşük skoru alarak genç doktorların altında kalmıştır. Bu denemelerin 2023 yılının ortalarında yapılmış olması dikkat çekici. Bu sonuçların potansiyel faydaları olmakla birlikte, bazı riskler ve endişeler de bulunmaktadır. Araştırmacılar, çalışmanın özellikle belirli kategorilerde sınırlı sayıda soru sunduğunu, bunun da gerçek sonuçların farklı olabileceği anlamına geldiğini belirtmiştir. LLM’lerin “halüsinasyon görme” ya da bir şeyler uydurma eğilimleri de vardır. Alakasız bir gerçek olsa pek önemsenmeyebilir ama katarakt ya da kanser olduğunu iddia etmek başka bir boyut. LLM kullanımının pek çok örneğinde olduğu gibi, sistemler de nüanstan yoksundur ve yanlışlık için daha fazla fırsat oluşturur.

GPT-4, göz değerlendirmelerinde uzman doktorların seviyesine yakın performans gösterdi

GPT-4, göz değerlendirmelerinde uzman doktorların seviyesine yakın performans gösterdi

Yorumunuz Önemli İptal

gAI Zetta

Merhaba, Ziyaretçi 👋

GPT-4, göz değerlendirmelerinde uzman doktorların seviyesine yakın performans gösterdi

Bu İçeriği Paylaş

ya da bağlantıyı kopyala

Yorumunuz Önemli İptal

gAI Zetta

Merhaba, Ziyaretçi 👋