Yapay zeka teknolojisinin insanlığa getirdiği yenilikler, ya da sağladığı kolaylıklara, daha önceki birçok yazılarımda sıkça değinmişimdir. Fakat yapay zeka araçları, internetteki milyarlarca veri üzerinden beslenirken ve bu verilerden öğrendikleri kalıplara göre cevap üreten sistemler oldukları için, bu sistemler bir insan gibi düşünemez, olayları değerlendiremez veya doğruluk kontrollerini yapamaz. Kabaca, öğrendikleri bilgilerden hareketle en olası cevabı oluşturmaya çalışırlar. Bu nedenle de bazen doğru bilgiler verebilirken; bazen de tamamen yanlış, eksik veya yanıltıcı bilgiler verebilirler. Bunlara bir örnek ABD' de yapılan bir araştırmadan gelmiştir. ABD'deki Mass General Brigham bünyesinde çalışan araştırmacılara göre, yapay zeka botlarına, detaylı klinik bilgiler ve veriler verildiğinde tanı koyma doğrulukları artmış, fakat uygun bir ayırıcı tanı üretiminde vakaların %80’ ninden fazlasında başarısız olduğu açıklanmıştır. Bu yüzden yapay zekanın direk değil destekleyici bir araç olarak kullanılması gerektiğini açıklamışlardır. Bu çalışmanın ortak yazarı Marc Succi "Süregelen iyileştirmelere rağmen, hazır paket büyük dil modelleri gözetimsiz şekilde klinik düzeyde devreye sokulmaya hazır değil," açıklamasını yapmıştır.
Bu araştırmanın teknik detayları ve işleyişi, Labmedya dergisinde şöyle açıklanmıştır. “Araştırma ekibi, Claude, DeepSeek, Gemini, GPT ve Grok'un en güncel sürümlerinin de aralarında bulunduğu, 21 büyük dil modelinin işleyişini inceledi. LLM'ler, PrIME-LLM adı verilen yeni geliştirilmiş bir araç kullanılarak 29 standartlaştırılmış klinik vaka senaryosu üzerinden değerlendirildi. Bu araç, bir modelin klinik muhakemenin farklı aşamalarındaki yetkinliğini değerlendiriyor: ilk tanının konulması, uygun tetkiklerin istenmesi, kesin tanıya ulaşılması ve tedavinin planlanması. Klinik vakaların nasıl ilerlediğini simüle etmek için araştırmacılar, önce hastanın yaşı, cinsiyeti ve belirtileri gibi temel bilgilerle başlayarak, ardından fizik muayene bulguları ve laboratuvar sonuçlarını ekleyerek modellere kademeli olarak bilgi sundu. Gerçek klinik ortamda bir sonraki aşamaya geçebilmek için ayırıcı tanı kritik öneme sahip. Ancak çalışmada, ayırıcı tanı adımında başarısız olsalar bile modellerin sıradaki aşamaya geçebilmesi için ek bilgiler verildi. Araştırmacılar, dil modellerinin kesin tanıda yüksek doğruluk oranlarına ulaştığını, ancak ayırıcı tanı üretme ve belirsizlikle başa çıkma konusunda zayıf performans sergilediğini tespit etti. Çalışmanın yazarlarından Arya Rao, LLM'lerin adım adım değerlendirilmesinin, onları birer sınav çözücüsü olarak görmekten öteye geçip bir doktorun yerine koyduğunu belirtti. Veriler tamamlandığında bu modellerin kesin tanıyı koymada çok başarılı olduğunu, ancak bilginin sınırlı olduğu bir vakanın açık uçlu başlangıç aşamasında zorlandığını da ekledi. Araştırmacılar, tüm modellerin vakaların yüzde 80'inden fazlasında uygun bir ayırıcı tanı üretemediğini ortaya koydu. Kesin tanıda ise başarı oranları modele bağlı olarak yaklaşık yüzde 60'tan yüzde 90'ın üzerine kadar değişti. LLM'lerin çoğu, metne ek olarak laboratuvar sonuçları ve görüntüleme verileri sağlandığında doğruluk oranlarını artırdı. Sonuçlar, Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash ve Gemini 3.0 Pro'nun yer aldığı, performansı en yüksek modellerden oluşan bir küme ortaya koydu.”
Yine başka bir örnekte Göteborg Üniversitesi'ndeki bir araştırmacının bilerek sahte tıbbi bir bilgiyi yaymasıyla test edilmiştir. Burada da sahte bir hastalık gerçek sayılmıştır. Kurgusal bir cilt rahatsızlığı tasarlayan ekip, iki sahte çalışmayı ön baskı sunucusuna yüklemişler ve birkaç hafta içinde yapay zeka bu sahte hastalığı gerçek olarak paylaşmaya başlamıştır.
Daha önceki yazılarımda da sıkça belirttiğim gibi gelecekte de yapay zeka hayatımızda çok daha büyük bir yer tutacak gibi görünüyor. Bu nedenle toplum olarak bu teknolojilerin sağladığı fırsatları değerlendirmeyi ve de risklerinin de farkında olmayı öğrenmemiz gerekiyor. Hele de sağlık alanında daha da dikkatli olmamız gerekiyor. Yapay zeka işimizi kolaylaştıran iyi bir araç olabilir, yalnız hiçbir zaman, sorgulanmadan kabul edilmesi gereken bir bilgi kaynağı olarak görülmemelidir.