Yapay zekâyla nefret söylemi tespiti: İki sohbet botuyla deney yaptık

ChatGPT ve diğer yapay zekâ modellerin kullanımının artmasıyla birlikte, medya dâhil birçok sektörde bu araçlar iş süreçlerinde vazgeçilmez hâle geldi. Özellikle nesnelliğin esas alan görevlere sahip sektörler, bu alanlarda daha yüksek performans sunan yapay zekâ modellerinden giderek daha fazla yararlanıyor. Peki bu modeller kişilerin yorumlarına, görüşlerine göre değişebilen ve kabul edilmiş ortak bir tanımı olmayan ‘nefret söylemi’ni tespit etmekte ne kadar başarılı?

Örneğin yukarıdaki gif’te gösterildiği gibi, ChatGPT, bu örnek özelinde nefret söylemini tespit edebiliyor. Hatta tespitin haricinde söylemin neden sorunlu olduğuna dair açıklamalar da ekleyebiliyor. Bu sayede kişilerin ifadelerindeki sorunlu yanlar da ortaya konulabiliyor.

Ancak bu sadece bir örnek. Bu aracın önemini tartmak için güvenilirliğini anlamak ve sınırlarını test etmek de bir o kadar kritik. Yani, tek bir örneğe dayanarak bu aracın nefret söylemini tespit etme konusunda ne kadar etkili olduğunu net bir şekilde söylemek mümkün değil.

ChatGPT’nin tanıtılmasının üzerinden bir yıl geçti

OpenAI’ın ChatGPT’sini kamuoyuna sunmasının ardından bir yıldan fazla bir süre geçti. Bu süre zarfında kullanıcılar, bu ve benzer araçların kabiliyetlerinin nasıl geliştiğini aşama aşama gördüler. İlk başta, kullanıcılara sunulan ChatGPT, kullanılabilir dil modellerinin en güçlülerinden biri olmasına rağmen, zaman içinde 4.0 sürümüyle birlikte veri analizi, API entegrasyonları ve eklentiler ile zenginleşti. Ayrıca, Bing ile internete erişim, sesli komut, DALL-E entegrasyonuyla ve son olarak kullanıcıların sohbet botu (chatbot) oluşturabilmesine imkân vererek daha işlevsel hale geldi. Bu arada Google’ın Bard’ı, Antropic’in Claude 2’si, Meta’nın Llama’sı gibi daha birçok yapay zekâ modeli geniş kitlelere ulaştı.

Tanıtılan bu özelliklerin en önemlilerinden biri kişilerin kendi sohbet botlarını yaratabilmesi. Bu sayede kullanıcılar kendi verileriyle destekledikleri özelleştirilmiş bir sohbet botunu herhangi bir kodlama becerisine ihtiyaç duymadan oluşturabiliyor ve hatta diğer insanlarla paylaşmalarına olanak tanınıyor.

Farklı bir açıdan, bu sohbet botu özelliği, kişilerin emek-yoğun işleri için özgün bir “asistan” yaratma imkânı da sunuyor. Örneğin, Hrant Dink Vakfı ve KAOS GL’nin uzun yıllar boyunca yaptığı nefret söylemi izleme çalışması, ekipler tarafından yapılan detaylı bir taramayla yürütülüyor. Gazetelerin veya sosyal medya mecralarının taranmasının emek-yoğun bir iş olduğunu göz önünde bulundurduğumuzda, bu süreç çokça insan kaynağı gerektiriyor. Bu sebeple nefret söylemi tespiti için bir aracın geliştirilmesi uzun zamandır akademi dünyasının gündeminde. Ancak bu alanda geliştirilen araçların kullanımı ChatGPT veya diğer modellerle kıyaslandığında daha fazla uzmanlık gerektirebiliyor. Bu açıdan, ilk bakışta, özelleştirilebilir sohbet botu versiyonlarının faydalı olabileceği düşünülebilir.

Benzer denemeler yapılıyor

Benzer denemelerden biri Teyit’in 102 farklı iddia ile ChatGPT’nin doğrulama performansını ölçmesi. Bu çalışma, ChatGPT’nin doğrulama sürecinde birçok handikapa sahip olduğunu ortaya koyuyor. Bunlardan biri ChatGPT’nin sonuçları nasıl ürettiğinin bilinmemesi. Bir başka ifadeyle, ChatGPT’nin bir komut aldığında hangi bilgileri ziyaret edip etmediği bilinmiyor. Bu da kullanıcılar açısından ChatGPT’yi denetlenebilir ve şeffaf olmaktan uzak bir yere oturtuyor.

Teyit ekibinden Zeynep Şahin ve Yunus Anıl Yılmaz’ın yaptığı bu çalışmada doğrulama faaliyetlerinin ChatGPT’inin asli bir şekilde yer alamayacağını ve sağlık gibi hayati önem arz eden alanlarda yanlış bilgiler verebildiğini belirtiliyor. Buradan hareketle, bu modellerin birtakım vaatleri olmasının yanında daha geniş bir perspektifle test edilmesi gerektiği söylenebilir.

Akademide ChatGPT ve diğer modellerle Türkçe nefret söylemi test edilip edilemeyeceğini deneyen çalışmalar da var. Örneğin, Nur Bengisu Çam ve Arzucan Özgür’ün yaptığı çalışmada ChatGPT ve BERT tabanlı modellerin Türkçe nefret söylemi tespitindeki performansları karşılaşlaştırıyor. Türkçe için yapılmış bu öncü çalışmaya göre ChatGPT ve BERT tabanlı modeller Türkçe nefret söylemini tespit edebiliyor. Ancak bu performans, modellerin nasıl bir göreve sahip olduğuyla da ilgili olabiliyor. Örneğin çalışmada “nefret söylemi” veya “nefret söylemi” değil gibi ikilik kullanıldığında Türkçe nefret söylemi kolayca tanımlanabiliyor. Ancak nefret söylemi mi yoksa saldırgan bir söylem mi diye sorulduğunda “nefret” ve “saldırganlık” etiketleri arasındaki benzerlik nedeniyle, modellerin tespiti zorlaşıyor. Dolayısıyla modellerin hangi görevlerle test edildiği, çıkan sonuçları da etkileyebiliyor.

Botun yaratılışı

Daha önceden belirtildiği gibi, OpenAI sohbet botu yaratma özelliği haricinde farklı web siteleri veya araçlarla da bu botları yaratmak mümkün. Örneğin, Poe’da Stable Diffusion, Dall-E, Claude ve Llama tabanları kullanılarak da bot yaratılabiliyor.

Bu çalışmada, nefret söylemi tespiti amacıyla iki ayrı OpenAI modeli kullanılarak iki sohbet botu geliştirilecek: ChatGPT’nin 4.0 versiyonu ve Poe’nun bot yaratma fonksiyonu aracılığıyla ücretsiz olarak erişilebilen ChatGPT 3.5 modeli. Burada iki farklı model yaratma nedeni OpenAI tarafından sunulan sohbet botuna ancak ücret ödenerek erişilebilmesi, dolayısıyla herkese açık olmaması. Herkesin erişimine ve testine açık bir model olduğu için Poe’nun bot yaratma fonksiyonunu da kullanacağız.

Her iki model için de benzer komut, görev tanımı ve kaynakları kullanıyoruz.

Öncelikle botu geliştirmek için kullanılacak kaynakları derlemek üzere İslam Mayda’nın paylaştığı yaklaşık 1.000 tweet’ten oluşan nefret söylemi veri kümesini “eğitim verisi” ve “test verisi” olarak ayırmakla başlıyoruz. Bu eğitim verisi ile Türkçe’de nefret söylemi örneklerine dair bir veri sunulması sunma hedefleniyor. Bunun yanında, ChatGPT’nin referans olarak aldığı işaretlenmiş veriler de oluyor.

Ayrıca, Türkiye’deki nefret söylemi konusunda raporlar yayınlayan Hrant Dink Vakfı’nın 2017, 2018 ve 2019 yıllık raporlarını ekliyoruz. Bu raporlar Türkçe nefret söylemi örneklerini içermekle birlikte, bir söylemin neden nefret söylemi olduğuna dair açıklamalar sunuyor. Bu sayede botun Türkçe dilindeki nefret söylemini daha iyi anlamasına yardımcı olabilmesi hedefliyoruz.

Poe’nun sunduğu bot OpenAI’dan daha farklı fonksiyonlara sahip olduğu için bazı süreçleri daha farklı yürütüyoruz. Bunlardan en önemlisi ChatGPT üstünde veri analizini ve kod çalıştırmayı sağlayan “code interpreter” gibi bir fonksiyonun Poe’da olmaması ve bu nedenle bir Excel tablosu yüklenerek bot için referans materyalin oluşturulamaması.

Botu oluşturulurken kullanılan komut ve kaynaklara bu linkten bakabilirsiniz.

OpenAI botunun ilk testi ve iyileştirmesi

İlk olarak, OpenAI’nın sunduğu sohbet botu oluşturma fonksiyonuyla işe koyuluyoruz. Yüklediğimiz tweetlerden arda kalan örnek tweetleri bota yükleyip şu komutu kullanarak test ediyoruz:

Verilen söylem örneklerini incele ve her birini nefret söylemi olup olmadığına göre sınıflandır. Bu sınıflandırmaları C “etiket” sütunu altına yap. Sınıflandırma yaparken, söylemin nefret söylemi içerip içermediğini belirlemek için dilbilimsel ve bağlamsal özelliklere dikkat et.

Nefret söylemi içermiyor (0)

Nefret söylemi içeriyor (1)

Belirsiz (2)

Her bir sınıflandırma için kısa cümlelik gerekçe yaz. Bunu D “açıklama” sütununa yaz. Bu gerekçeler, ifadenin hangi özelliklerine dayanarak belirli bir kategoriye atandığını açıklamalısın.

“Code interpreter” kullanılarak yapılan ilk testte, sohbet botunun verilen tweet örneklerinde nefret söylemi tespitinde zorlandığı önemli bir kısmının “belirsiz” olarak etiketlenmesi, nefret söylemi içerip içermediğine karar verememesiyle anlaşılıyor. Veri setiyle olan uyumsuzluğa baktığımızda, 466 tweet içerisinden 209 örnekte etiketleme uyumsuzluğu yaşandığı; yani sohbet botunun veri setindeki etiketlemelerle aynı sonuçları vermekte yetersiz kaldığı görülüyor.

Bu sonuçları modele detaylı bir şekilde geribildirim vererek geliştirebileceğimiz ve nefret söylemi tespitindeki başarısını artırabileceğimiz şeklinde yorumlasak da nefret söylemi tespiti için “code interpreter” gibi bir aracı kullanmamız sonuçlardaki uyumsuzluğun ‘code interpreter’dan mı yoksa modelden mi kaynakladığını net olarak anlamamızı zorlaştırıyor.

İyileştirmeler yapıldı

Sohbet botunun geliştirilmesinde bir diğer önemli adım da botun ürettiği sonuçlara yönelik verilen geribildirim. Bu doğrultuda, OpenAI ile yaratılan sohbet botunun verdiği etiketlemelere bakarak yaygın yapılan hatalara geri bilidirim vermeye çalışıyoruz.

“ak partili arkadaşlar tövbe etmezseniz allah’ın huzuruna müslüman katili olarak çıkacaksınız. ırak işgalinde haçlı ordusuna verdiğiniz desteği bu halk unutur ama allah unutmaz. #susamamşarkısıbana”

Sohbet botu bu ifadenin nefret söylemi içermediğini belirtti. Ancak “haçlı ordusu” vurgusuyla Hristiyan kimliğe işaret edilmesi ve Hıristiyanların Irak’ta yapılan insan hakları ihlalleriyle ilişkilendirilmesi nefret söylemi üretiyor. Sohbet botuna bu konuda yaptığı yanlış kategorilendirmesini göstererek, “haçlı” vurgusunun Hristiyanlara yönelik genelleme içerdiğine ve bir dinin sembolünün insan hakları ihlalleriyle ilişkilendirildiğinde nefret söylemi oluşturabileceğine yönelik geribildirim verildi.

“dalga geçiyor resmen kadın. bu hdp’li vekiller ermeni ve yahudi. duyarsızlıkları bundan. e be kadın senin de evladın var. senin de farklı şekilde ciğerin yanar.”

Sohbet botu buradaki nefret söylemini fark etmedi. Burada fark edilmeyen nefret söylemi bir kimliğin düşman veya olumsuz atıflar için kullanılması veya bir grubu düşman olarak konumlandırılması ile yapılıyor. Hâlihazırda “olumsuzluk” atfetilen kimlikler ile HDP (DEM) vekilleri ilişkilendiriliyor, bu da nefret söylemine neden oluyor olumsuz. Bu örnekten yola çıkarak, sohbet botuna Türkiye’de olumsuz atıf ve sıfatlarla ilişkilenen kimliklerin farklı grup veya kimliklerle ilişkilendirilerek birden fazla gruba yönelik olumsuzluk atfedilebildiğine ve bu iki grup için de nefret söylemi oluşturabileceğine yönelik geribildirim verildi.

“oğlumu hdp aldı bunlar müslüman değil bunlar gavur. amerikayla iş tutuyorlar. kürt falan da değiller. kendi çocuklarını göndersinler dağa. amerika’da çocukları okuyor. ciğerimizi yaktılar allah da onların ciğerini yaksın. vicdansız bunlar. kürtlerle niye uğraşıyorlar. gavur bunlar”

Burada da benzer şekilde “gâvur” ifadesinin HDP (DEM) vekillerini tanımlamada kullanıldığı görülüyor. Burada, Türkiye’de Müslüman olmayan kimlikler için bir nefret ve aşağılama ifadesi olarak kullanılan “gâvur” sözcüğüyle yine gayrimüslimlere yönelik nefret pekiştiriliyor ve siyasi bir grup bu saldırgan ifadenin hedefi hâline getirildiğine dair geribildirim verildi.

Yukarıda verilen örnekler dışında sohbet botunun yanlış tespitlerine yönelik birçok geribildirim verildi.

Poe AI botuna geribildirimler verildi

Bu modelin ilk testini 200’e yakın bir tweet setiyle yapıyoruz. Fakat bu bot yaratma fonksiyonunun “code interpreter” gibi bir özelliği olmadığı için detaylı bir şekilde ilk teste dair sayısal veri aktaramıyoruz. Ancak diğer botta olduğu gibi burada da yaygın olarak yapılan hatalara da geribildirim veriyoruz.

“galatasaraylı taraftarlara suriyeli diyenler dönüp önce kendine baksın!…”

Poe’nun da OpenAI botuna benzer bir yerde takıldığını ve nefret söylemini tespit edemediğini görüyoruz. Burada da doğal bir kimlik öğesinin olumsuz olarak kullanılması söz konusu. “Suriyeli” kimliğinin bir gruba olumsuz bir nitelik atfetmek için kullanıldığını ve nefret söylemi olduğuna dair geribildirim veriyoruz.

“açık açık pkk terör örgütüne destek veren ve ermeni sevicisi canan kaftancıoğlu’na işleyen adalete sözümüz yok yalnız aynı durumu paylaşan binlercesine de işletilsin ki adalete olan güvenimiz sarsılmasın”

Yine Poe sohbet botunun nefret söylemini tespit etmekte zorlandığını görebiliyoruz. Burada Ermeni kimliğinin bir kişiye olumsuz atıfta bulunmak için kullanıldığını ve nefret söylemi olduğunu belirtiyoruz.

Son test

İki modele de geribildirimler verdikten sonra son test aşamasına geliyoruz. Bu aşamada yine Mayda’nın GitHub’da yayınladığı ikinci veri setinden yararlanıyoruz. Bu veri setinde bulunan her dini veya etnik gruba yönelen dört söylem (ikisi nefret söylemi ikisi nefret söylemi değil) öneğini alıyoruz. 19 gruba yönelik olması aynı zamanda farklı kimliklerin örneklerde temsil edilmesine ve bu kimlikler üzerinde aracın tespit gücünü görmemize de yarıyor.

Sonuçlar, iki bot arasındaki farklılıkları açıkça gösteriyor. OpenAI sohbet botu, incelenen örneklerin %80’ini doğru bir şekilde sınıflandırabiliyor. Bu diğer sohbet botlarıyla kıyaslandığında yüksek bir oran.

Nefret söylemi tespiti kadar önemli olan bir diğer konu nefret söylemi olmayan ifadelerin nefret söylemi olarak etiketlenmesi. Bu, sohbet botlarının birtakım nefret söylemi içeren söylemleri tespit edememesinden daha farklı bir durum yaratıyor. Bu durumda, bazı ifadelerin haksız yere nefret söylemi olarak değerlendirilmesi kişilere yönelen haksız tepkilere neden olabilir. Bu noktada, ChatGPT’nin performansı Poe botuna göre görece daha iyi görünüyor. Ancak, ChatGPT’nin yanlış negatif sayısı, Poe’ye kıyasla daha fazla.

Diğer bir önemli noktaysa, botların bir ifadenin nefret söylemi olup olmadığına karar veremediği durumlar. Bu konuda Poe, ChatGPT’ye göre daha fazla belirsiz etiket kullanıyor, bu da onu tespitte yetersiz bir konuma getiriyor.

Poe’nun “yanlış pozitif” sonuç verdiği, örneklerden biri şu:

“Şu ıngiliz vatandaşının başbakanı ile diyaloğuna bakarmisin resmen ben halkım sen bir hiç sin i iliklerine kadar hissettirmis boris e bizimki de 7383736382 araçla cumaya gitsin”

Poe bu ifadede nefret söylemi saptarken “Bu ifadede, İngiliz bir vatandaşa yönelik aşağılama ve nefret içeren ifadeler bulunmaktadır. İngiliz vatandaşının başbakanı ile olan diyaloğu eleştiren ifade, karşıdaki kişiyi aşağılamak ve küçümsemek amacını gütmektedir. Bu nedenle, nefret söylemi içeren bir ifade olarak sınıflandırılmaktadır” diyor.

OpenAI sohbet botu ise gerekçesini şöyle açıklıyor: İfade, “Birleşik Krallık Başbakanı Boris Johnson’ın bir vatandaşla olan diyaloğunu eleştiriyor ve Türkiye’deki bir politik liderle karşılaştırıyor. Bu, bir politik eleştiri olup, herhangi bir etnik veya ulusal kimliğe yönelik düşmanca veya aşağılayıcı bir dil içermiyor.”

OpenAI botunun tweetin bağlamını daha iyi analiz ettiği görülebiliyor.

“Sen 67 yi beklicen dimi? Yazık sana da ne çektin be ateist kardeş 🤣”

Veri seti ile Poe botunun uzlaşamadığı bir diğer tweet. Poe botunun yaptığı açıklamaya göre ifade “alaycı ve aşağılayıcı bir dil kullandığı’”için nefret söylemi olarak sıınıflanıyor. Öte yandan ChatGPT ise daha isabetli bir karar ile ifadeyi “bir kişiye yönelik espri yoluyla yapılmış bir yorum gibi görünmektedir. Ateist kimliğine yönelik herhangi bir aşağılama veya düşmanlık içermiyor, kişisel bir diyalog içeriği taşıyor” diye açıklıyor.

Peki, nefret söylemi tespitinde botlar kullanılabilir mi?

Başta da dediğimiz gibi nefret söylemi tespiti emek yoğun bir iş ve bunu kolaylaştıracak birçok araca ihtiyacımız var. OpenAI’ın sunduğu veya diğer araçlar bu konuda kolaylıklar getirse de birçok dezavantaja da sahip. Bunları bilmek, nefret söylemi tespit botlarının nerede yanılabileceğini anlamak ve sınırlılıklarını bilmek açısından önemli. Bu sayede nefret söylemi tespit botlarının iyileştirilmesi ve düzenlemeler yapılarak daha iyileştirilmesi mümkün.

Ancak sohbet botlarının tek başına nefret söylemi tespitinde belirleyici olması şimdilik mümkün görünmüyor. Bunun yerine kişilerin araştırma ve izleme süreçlerini kolaylaştıran bir araç olarak rol alması çok daha mümkün.

Öneriler:

76 farklı örnek ile yapılan son testte OpenAI botu ile yapılan bot, incelenen örneklerin %80’ini doğru bir şekilde sınıflandırdı, Poe ise %63.16 oranında doğruluk oranına sahip. Ancak bu eğitimin, iyileştirme ve son test bir başlangıç olarak kabul edilip daha büyük veri setleriyle geliştirilmesi ve iyileştirilmesi gerekiyor.
Bu botların kişilerin söylemlerini nefret söylemi olarak nitelendirip ifade özgürlüğünü kısıtlamaması için yanlış pozitifler üzerinde daha fazla durulmalı. Bu aracın hangi noktalarda yanlış pozitif sonuçlar ürettiği anlaşılması ve bu noktaların iyileştirilmeli.
Bu test, nefret söylemi içeren ve içermeyen tweetlerle yapıldı. Fakat nefret söylemi sadece tweetlerde değil gazete kupürlerinde, videolarda, görsellerde de karşımıza çıkabiliyor. Bu sebeple botların kapasitesinin el verdiği şekilde geliştirilmesi, nefret söylemi evrenindeki tüm örnekleri değerlendirebilecek kıvama getirilmesi gerekiyor.
Son olarak, bot LGBTİ+’lara yönelik nefret söylemi tespiti konusunda da denendi. Burada yaygın bir hata görülmediği için müdahalede bulunulmadı. Ancak veri setinin daha fazla etnik ve dini kimliklere yönelik nefret söylemi içermesi de buna neden olmuş olabilir. Bu sebeple bot LGBTİ+’lara yönelik nefret söylemi örnekleriyle de sohbet botunun geliştirilmesi gerekiyor.

Bota övgü

Son olarak, veri setinde tarafından nefret söylemi olarak etiketlenen ama OpenAI’ın nefret söylemi olarak değil de eleştiri olarak kabul ettiği bir tweetle bitirmek istiyorum:

“Yeryüzünde dinler olmasaydi insanlığın kaybedeceği tek bir sey söyleyebilir misiniz ? İnsanları müslüman, hristiyan, musevi diye ayirip bir diğerinden nefret ettiren ve hatta alevi sünni diye fişleyen din, tarihi kanla yazılmış din.”

Sizce bu bir nefret söylemi mi? Yoksa bir eleştiri mi? Karar vermek zor.

Yazar, katkıları ve yorumları için Yasemin Korkmaz’a ve uzman görüşü için Nur Bengisu Çam’a teşekkürlerini sunuyor. OpenAI botuna ulaşmak için bu bağlantıya, ilgili test sohbetine erişmek için ise şu bağlantıya tıklayabilirsiniz. Poe botuna ulaşmak için bu bağlantıya göz atabilir ve ilgili test sohbetine buradan erişebilirsiniz.

İLGİLİ: JOURNO’NUN YAPAY ZEKÂ İÇERİKLERİ