The British Medical Journal’da yayınlanan yeni bir çalışma, yapay zekanın (AI) Kraliyet Radyologlar Koleji (FRCR) Uzmanlığı sınavını geçip geçemeyeceğini test etti. Birleşik Krallık’taki (BK) radyologların eğitimlerini tamamlamadan önce FRCR sınavını geçmeleri gerekiyor. Yapay zekanın aynı sınavı geçebileceği varsayılırsa, radyologların yerini alabilir. Son FRCR sınavının üç bileşeni vardır ve adayların sınavı genel olarak geçmeleri için her bileşenden geçer not almaları gerekir.
Hızlı raporlama bileşeninde adaylar 35 dakika içinde 30 radyografiyi analiz edip yorumlamalı ve sınavın bu bölümünü geçmek için bunların en az %90’ını doğru bir şekilde raporlamalıdır. Bu oturum, adayları doğruluk ve hız açısından ölçmektedir. Yapay zekanın doğruluk, hız, radyografiler ve ikili sonuçlar konusunda üstün olacağını öne süren bir argüman vardır. Bu nedenle, FRCR sınavının hızlı raporlama oturumu, yapay zekanın hünerlerini test etmek için ideal bir ortam olabilir.
Bu çalışmada araştırmacılar, bir yapay zeka adayının FRCR sınavını geçip geçemeyeceğini ve aynı sınava giren insan radyologlardan daha iyi performans gösterip gösteremeyeceğini değerlendirdiler. Yazarlar, RCR’nin emekli FRCR hızlı raporlama sınavı vakalarını paylaşmayı reddetmesi nedeniyle analiz için 10 FRCR sahte sınavı kullandılar. Radyografiler, gerçek bir sınavla aynı zorluk seviyesini yansıtacak şekilde seçilmiştir.
Her bir deneme sınavı, yetişkinlerin ve çocukların tüm vücut bölümlerini kapsayan 30 radyografiden oluşuyordu; yaklaşık yarısı bir patoloji içeriyordu ve geri kalanında hiçbir anormallik yoktu. Son 12 ay içinde FRCR sınavını geçen önceki başarılı FRCR adayları (radyolog okuyucular) sosyal medya, kulaktan kulağa iletişim ve e-posta yoluyla işe alındı.
Radyolog okuyucular, demografik bilgiler ve önceki FRCR sınav denemeleri hakkında bilgi toplayan kısa bir anket doldurmuştur. Anonimleştirilmiş radyografiler çevrimiçi bir görüntü görüntüleme platformu (tıpta dijital görüntüleme ve iletişim, DICOM) aracılığıyla sağlanmıştır. Radyologlara, on sahte muayeneye ilişkin yorumlarını çevrimiçi bir sayfaya kaydetmeleri için bir ay (Mayıs 2022) süre verilmiştir.
Radyologlar, 1) sahte sınavların gerçek FRCR sınavına göre ne kadar temsili olduğu, 2) kendi performansları ve 3) yapay zekanın ne kadar iyi performans göstereceğini düşündükleri konusunda puanlar vermişlerdir. Benzer şekilde, bir Fransız yapay zeka şirketi olan Milvue tarafından geliştirilen Smarturgences adlı yapay zeka adayına 300 anonimleştirilmiş radyografi sağlanmıştır.
YZ (Yapay Zeka) aracı, abdominal ve aksiyal iskelet radyografilerini analiz etmek için onaylanmamıştır; yine de, katılımcılar arasında adil olması için bu radyografiler sağlanmıştır. YZ aracı için puan dört şekilde hesaplanmıştır. İlk senaryoda, yorumlanamayan radyografiler hariç tutularak yalnızca YZ ile yorumlanabilen radyografiler puanlanmıştır. Yorumlanamayan radyografiler ikinci, üçüncü ve dördüncü senaryolarda normal, anormal ve yanlış olarak puanlanmıştır.
Toplamda 16’sı kadın olmak üzere 26 radyolog çalışmaya katılmıştır ve katılımcıların çoğu 31-40 yaşları arasındadır. On altı radyolog FRCR sınavını son üç ay içinde tamamlamıştır. Katılımcıların çoğu FRCR sınavını ilk denemelerinde geçmiştir. YZ aracı ilk senaryoda iki deneme sınavını geçmiştir. Senaryo 2’de, YZ bir deneme sınavını geçmiştir.
Senaryo 3 ve 4’te, YZ adayı sınavda başarısız olurdu. YZ için genel duyarlılık, özgüllük ve doğruluk senaryo 1’de %83,6, %75,2 ve %79,5’tir. Radyologlar için duyarlılık, özgüllük ve doğruluk özet tahminleri sırasıyla %84,1, %87,3 ve %84,8’dir. YZ bir muayenede en yüksek performans gösteren adaydı ancak genel olarak sondan ikinci sırada yer aldı. Senaryo 4’te olduğu gibi, gerçek muayeneyi en iyi yansıtan katı puanlama kriterleri varsayıldığında, YZ’nin genel duyarlılığı, özgüllüğü ve doğruluğu sırasıyla %75,2, %62,3 ve %68,7 olmuştur. Buna karşılık, radyologların özet duyarlılık, özgüllük ve doğruluk tahminleri sırasıyla %84, %87,5 ve %85,2’dir.
Hiçbir radyolog tüm deneme sınavlarını geçememiştir. En yüksek dereceli radyolog dokuz deneme sınavını geçerken, en düşük dereceli üç radyolog yalnızca bir sınavı geçebilmiştir. Ortalama olarak, radyologlar dört deneme sınavını geçebilmiştir. Radyologlar, deneme sınavlarını FRCR sınavından marjinal olarak daha karmaşık olarak değerlendirmiştir. Kendi performanslarını 10 puanlık Likert tipi bir ölçekte 5,8 – 7,0 arasında, yapay zekanın performansını ise 6 – 6,6 arasında değerlendirmişlerdir.
Veri setindeki 42 yorumlanamayan radyografiden biri için YZ (Yapay Zeka) adayı bir sonuç vermiştir; normal bir abdominal radyografide bazal pnömotoraks olarak yanlış etiketlenmiştir. Radyologların yarısından fazlası 20 radyografiye yanlış tanı koymuştur; bunlardan 10’una YZ aracı yanlış tanı koymuş ancak geri kalanını doğru yorumlamıştır. Genel olarak, neredeyse tüm radyologlar 148 radyografiyi doğru analiz etmiş ve bunların 134’ü YZ adayı tarafından da doğru yorumlanmıştır.
Özetlemek gerekirse, YZ, özel muafiyet sağlandığında, yani yorumlanamayan görüntülerin hariç tutulduğunda iki deneme sınavını geçmiştir. Ancak, izin verilmediği takdirde YZ hiçbirini geçememiştir. YZ radyologlardan daha iyi performans göstermese de, karmaşıklık ve vaka karışımı göz önüne alındığında doğruluğu yüksek kalmıştır.
Dahası, YZ bir deneme sınavında üç radyologdan daha iyi performans göstererek en üst sırada yer almıştır. Özellikle, YZ, insan meslektaşlarının yanlış yorumladığı radyografilerin yarısına doğru tanı koymuştur. Bununla birlikte, YZ adayı, özellikle YZ tarafından yorumlanamayan vakalar için, ortalama bir radyologla aynı seviyelerde performans ve becerilere ulaşmak için hala daha fazla eğitim gerektirmektedir.