ChatGPT doğru cevap veriyor mu? Sohbet botlarının yanıtlarının %30'u yanlış, %3'ü uydurma çıktı

En yaygın yapay zekâ uygulamalarından olan sohbet botu ChatGPT ile ilgili iki yeni araştırmanın sonuçları yayımlandı. Bu aracı haber yazarken kullanan gazeteciler için de önemli olan “ChatGPT doğru cevap veriyor mu” sorusuna yanıt arayan Teyit, bu uygulamanın soruların %69,2’sini doğru, %30,8’ini yanlış yanıtladığını buldu. ABD’de yapılan yeni bir araştırmaya göre ChatGPT’nin “uydurma” oranı en az %3. Google’a ait Palm adlı sistem ise %27 ile en yüksek uydurma oranına sahip.

Doğrulama platformu Teyit, “ChatGPT, teyitçiliğe alternatif olur mu” başlıklı araştırmasını 5 Kasım’da yayımladı. Araştırma kapsamında, Teyit’in geçmişte doğruluk kontrolünü yaptığı 104 iddiayla ilgili analizler temel alınarak ChatGPT‘ye standartlaştırılmış sorular sistematik olarak soruldu. Örneğin bir soru şöyle:

Pisagor’un eşinin adı hipotenüs mü? Her şeyden önce “Pisagor’un eşinin adı Hipotenüs’tür” cümlesinin doğruluğunu aşağıdaki rakamlarla değerlendir:
1: Yanlış
2: Kısmen Doğru, Kısmen Yanlış
3: Doğru
0: Bilmiyorum/Fikrim Yok
Sonra cevabının ayrıntılı sebebini yaz.

Merkezi ABD’de bulunan OpenAI şirketine ait sohbet botu ChatGPT‘nin 3.5 sürümü, soruların %36,3’üne “Bilmiyorum” yanıtını verdi. Bunun haricindeki sorularda ChatGPT‘nin yanıtlarının %69,2’nin doğru, %30,8’nin nitel veya nicel olarak yanlış olduğu haberde belirtildi.

ChatGPT ile haber yazanlar, dikkat

Örneğin, bir su bardağı elma çekirdeğinin insanı öldürebilme ihtimaline dair soruya ChatGPT‘nin şu yanıtı verdiği bildirildi:

Bir su bardağı elma çekirdeği, normal bir insanın tüketebileceğinden çok daha fazla miktarda çekirdeği içerir. Ancak, bu miktardaki elma çekirdeklerini tüketmek için büyük bir gayret gerektirir ve çoğu insan için gerçekçi bir senaryo değildir. Dahası, çekirdeklerin sindirim sisteminde sindirilmeden geçmesi oldukça zordur.
Siyanürün insan vücuduna zarar vermesi için yüksek konsantrasyonlarda alınması gerekir. Normalde, bir su bardağı elma çekirdeği yemek, insan sağlığı için doğrudan tehlike oluşturacak kadar yüksek bir siyanür dozunu sağlamaz.
Bu nedenle, bir su bardağı elma çekirdeği bir kişiyi öldüremez. Ancak, elma çekirdeklerinin aşırı miktarda tüketilmesi veya çekirdeklerin öğütülerek içilmesi gibi uygunsuz tüketim yöntemleri sağlık sorunlarına neden olabilir. Bu nedenle, elma çekirdeklerinin tüketimi konusunda makul sınırlar içinde kalmak önemlidir.

Teyit bu iddiayı daha önce derinlemesine araştırmış ve bilimsel olarak bir su bardağı elma çekirdeği tüketmenin insanı öldürmesinin mümkün olduğunu göstermişti. Bunu hatırlatan doğrulama kuruluşu, şu uyarılarda bulundu:

Bu örnek, ChatGPT’den özellikle sağlıkla ilgili tavsiyeler alırken daha dikkatli olmamız gerektiğinin altını çiziyor.
ChatGPT’nin ürettiği yanlış bilgi oranı, insan eliyle üretilen teyitçilik faaliyetiyle karşılaştırıldığında hayli yüksek.
… ChatGPT’nin doğru bilgiye ulaşmak için kullanılmasındaki problem, uygulamanın bazen yanlış bilgi üretmesi değil, çoğunlukla test edilebilir bilgi üretmemesi. Bu sebeple ChatGPT’nin doğrulama faaliyetinin yerine almaktan çok uzakta olduğunu söyleyebiliriz.

Sohbet botları bazen “halüsinasyon” görüp bilgi uyduruyor

ChatGPT‘nin verdiği cevaplardaki doğruluk oranını inceleyen bir başka araştırmanın sonuçları, 6 Kasım’da New York Times gazetesinde yayımlandı.

Eski Google çalışanlarının kurduğu Vectara adlı şirketin bu araştırmasında, ChatGPT ve diğer sohbet botlarının gerçeklerden ne kadar saptığı irdelendi. Araştırma kapsamında bu sohbet botlarına 10 ila 20 arasında olgunun yer aldığı metinler verildi. Sohbet botlarından bunları özetlemesi istendi.

Araştırmada test edilen sohbet botlarının tamamı, “haber özeti” gibi görece basit bu görevi yaparken bile sık sık “halüsinasyon” gördü, yani uydurma bilgilerle cevap verdi. Özetlemenin ötesine geçen daha zor görevler verildiğinde ise uydurma oranı daha da arttı.

Örneğin narkotik polisinin yaptığı bir baskını konu alan haberden bir bölümü özetlemesi istenen sohbet botu, yakalanan uyuşturucunun piyasa değerinin “100 bin dolar” olduğu bilgisine yanıtında yer verdi. İlgili haber metninde böyle bir bilgi yer almadığı gibi, cevapta geçen sayı da yanlıştı; yani sohbet botu “halüsinasyon” görüp uydurmuştu.

Habere göre OpenAI’ın ChatGPT‘si, %3’lük uydurma oranıyla “en iyi” skoru elde etti. Facebook ve Instagram’ın sahibi olan Meta’ya ait yapay zekâ sistemlerinde bu oran %5 oldu. OpenAI’ın rakibi sayılan Anthropic şirketine ait Claude 2 sisteminde %8’e varan uydurma oranı, Google’ın Bard sohbet botunu da çalışan Palm adlı sistemde %27 ile zirveye ulaşıyor.

İLGİLİ: YAPAY ZEKA HABERLERİ