Yapay zeka sağlık dünyasına hızla giriyor: randevu alıyor, reçete yorumluyor, laboratuvar sonuçlarınızı açıklıyor. Pek çoğumuz da "bir belirtimiz" olduğunda artık önce doktora değil, ChatGPT'ye soruyoruz.

Ama 14 Nisan 2026'da yayımlanan bir araştırma çok net bir uyarı verdi: Günümüzün en güçlü yapay zeka modelleri, bir hastaya ilk bakışta doğru "olasılıklar listesi" çıkarmakta vakaların %80'inden fazlasında başarısız oluyor.

Yani AI, doktoru değil — olsa olsa doktor yardımcısını yerinden edebilecek güçte. Henüz değil.

Araştırma neyi ölçtü?

Harvard Tıp Fakültesi'nden Arya Rao liderliğindeki ekip, şu anda piyasada en yaygın kullanılan 21 büyük dil modelini — GPT-5, Claude 4.5 Opus, Gemini 3.0 Pro, Grok 4, DeepSeek R1 ve benzerlerini — aynı sınava soktu. [Kaynak]

Sınav metni olarak, dünya tıbbının standart referanslarından biri olan Merck Sharp & Dohme (MSD) Manual'ın Ocak 2025 güncellemesinden alınmış 29 standardize klinik vinyet kullanıldı. Her vinyet; hastanın öyküsü, fizik muayene bulguları, laboratuvar sonuçları ve sistem incelemesini içeriyordu. Gerçek bir hekim ofisinde hastayla yüz yüze değerlendirme yaparkenki sürece çok yakın.

21
Test edilen büyük dil modeli sayısı (GPT-5, Claude 4.5 Opus, Grok 4, Gemini 3.0 Pro dahil)
%80+
Modellerin uygun ayırıcı tanı listesi üretememe oranı

Şaşırtıcı çelişki: Sonucu biliyor, yolu bilmiyor

Araştırmanın en çarpıcı bulgusu bir tezat içeriyor. Tüm bilgiler eksiksiz verildiğinde modellerin %90'ından fazlası doğru nihai tanıya ulaşabildi. [Kaynak]

Ama bu ne anlama geliyor? Bir soruyu "cevap anahtarıyla birlikte" verirseniz, AI cevaplayabiliyor. Anahtar yoksa — yani hasta size sadece "başım ağrıyor, bir hafta önce başladı, bazen de mide bulantısı oluyor" derse — AI'nın işleri yokuşa sürüyor.

Çünkü tıp sadece "isabet etme sanatı" değildir; düşünme zinciri sanatıdır. Klinik akıl yürütme beş ayrı basamakta gerçekleşir: tanı testi seçimi, ayırıcı tanı, nihai tanı, yönetim ve klinik muhakeme. Bu çalışma tam da bu beş alanı ayrı ayrı ölçtü. Modeller "cevap" basamağında güçlü, "neden" basamağında çok zayıf çıktı.

Kritik bulgu: AI'nın zaafiyeti "bilgisi yok"tan değil, "klinik mantık kuramıyor"dan kaynaklanıyor. Deneyimli bir hekimin kafasında bir hasta karşısında beliren o muhteşem "şu olabilir, şu da olabilir" şemsiyesini, LLM'ler hâlâ açamıyor.

Sıralama: Hangi model daha az yanılıyor?

Araştırma, belirli bir üst grubu da ortaya çıkardı. En iyi performans gösteren küme: Claude 4.5 Opus, Grok 4, Gemini 3.0 Flash, GPT-5, Gemini 3.0 Pro ve GPT-4.5. Grok 4, PrIME-LLM adı verilen birleşik klinik muhakeme skorunda en yüksek ortalamayı yakaladı. [Kaynak]

Ama dikkat: "en iyi" olmak, "yeterli" olmak anlamına gelmiyor. En iyi modeller bile ayırıcı tanı basamağında klinik beklentilerin çok altında kaldı. Bir pilotla uçak simülasyonunda %20'nin üstünde başarı oranı yetmez; bir hekim için de %80'in altında doğruluk, hasta için tehlikedir.

Bu hepimizi neden ilgilendiriyor?

Çünkü 2026'da çok yaygın üç senaryoda karşımıza çıkıyor:

1. Kendi kendine tanı: Semptomlarınızı bir chatbot'a yazıp "sence ne olabilir?" diye sormak bugün yaygın bir refleks haline geldi. Araştırma diyor ki: aldığınız cevaplar ikna edici görünse de, %80'inden fazla ihtimalle ayırıcı tanı listesi doğru değil. Başka ciddi bir olasılığı sizinle paylaşmayı atlıyor olabilir.

2. Hekim destek araçları: Giderek daha çok klinikte AI, hekimin "ikinci gözü" olarak kullanılıyor. Goh ve arkadaşlarının JAMA Network Open'da yayımladığı randomize bir çalışma, LLM kullanan ve kullanmayan hekimler arasında tanı doğruluğu açısından istatistiksel olarak anlamlı fark bulunmadığını göstermişti. AI şu an "süper asistan" değil, olsa olsa iyi bir not defteri. [Kaynak]

3. Triyaj ve çağrı merkezi uygulamaları: Aile hekimliği öncesi AI'nın hastayı filtrelemesi fikri birçok yerde pilot olarak uygulanıyor. Araştırma ışığında, AI filtresinin her zaman güvenli olmadığı görülüyor.

Özetle: LLM'ler, bir ansiklopedi kadar bilgi sahibi olabilir; ancak deneyimli bir hekimin yıllar içinde geliştirdiği "klinik sezgiyi" henüz taklit edemiyor. Ve tıp, en az bilgi kadar sezgi mesleğidir.

Bu kötü haber mi? Hayır — doğru çerçeveleme için harika bir haber

Araştırma, AI'yı "işe yaramaz" demiyor; sınırlarını net çiziyor. Ve sınır çizmek, bir teknolojinin gerçek değerini anlamak için şart.

AI'nın sağlıkta gerçek katma değeri şu alanlarda çok güçlü: görüntü analizi (radyoloji, patoloji, retinografi), reçete çakışma kontrolü, randevu ve süreç yönetimi, literatür özeti, hasta eğitim materyali, medikal ofis dokümantasyonu. Yani rutinleşebilen ve örüntü tanıma temelli işler.

Karmaşık, belirsizlik içeren, çok olasılıklı klinik düşünme? Bu hâlâ insana ait. Ve öyle de olmalı.

"Human-in-the-loop" ilkesi: Klinik AI asla tek karar verici olmamalı. AI bir sesli not defteri gibi çalışsın — hekim son sözü söylesin. Avrupa İlaç Ajansı da, FDA da 2026'daki güncel rehberliklerinde bu ilkeyi koruyor.

Peki biz ne yapmalıyız?

Bu yazı sağlık hizmetlerinde AI'dan uzaklaşmayı değil, onu akıllı kullanmayı öneriyor.

Bugünden atabileceğiniz 3 adım:

  • AI'ya semptom soracaksanız, onun cevabını "kesin yargı" değil "bir olasılık listesi" olarak algılayın. Ciddi şikâyetleriniz için mutlaka hekime başvurun — özellikle göğüs ağrısı, nefes darlığı, ani görme/konuşma değişiklikleri, uzun süren ateş gibi durumlarda.
  • Hekiminize giderken AI'nın söylediklerini değil, kendi semptomlarınızı anlatın. Chatbot çıkarımları anamnez almanın önüne geçmemeli.
  • Kronik hastalığınız varsa ve AI destekli bir uygulama kullanıyorsanız, cihazın verilerini mutlaka hekiminizle paylaşın. Araç kendi başına karar vermesin, "ortak akıl" için veri sağlasın.

Yapay zekâ, sağlığın geleceğinde büyük bir ortaktır. Ama ortak demek "tek başına iş yapar" değil, "birlikte daha iyi iş yapar" demektir. 2026'da en güvenli formül hâlâ aynı: AI + hekim > yalnız AI veya yalnız hekim.

⚕️ Unutmayın, tıpta hastalık yoktur hasta vardır. Sağlık şikayetleriniz ve sağlık durumunuz hakkında bilgi almak için lütfen doktorunuza başvurunuz.