Fotoğraflardaki mekânların neresi olduğunun doğru ve hızlı olarak saptanması, gazetecilikteki teyit süreçleri için de önemli. Yeni yapay zekâ teknolojileri kullanılarak geliştirilen üç popüler sohbet botunun konum doğrulamada kullanılıp kullanılamayacağını 8 soruluk mini bir deneyle test ettik. ChatGPT, Claude ve Gemini sohbet botları, yüklediğimiz görsellerin konumunu saptamada ortalama %50 isabet kaydetti.
Testte en başarılı sohbet botu Claude görünse bile, bu yapay zekâ uygulamalarından hiçbiri henüz konumsal doğrulamada insanların yerine geçecek kadar becerikli değil. Ancak üç sohbet botu da, gazetecilerin işini kolaylaştırabilecek bir potansiyele sahip. En işe yarar yetenekleri, düşük çözünürlüklü olduğu için okunamayan metinleri çözmek.
“Açık kaynaklı istihbarat” (OSINT) araçlarını daha önce Journo’da anlatırken fotoğraf ve videolardaki konumların tespit ve doğrulaması için “tersine görsel arama” kavramından da bahsetmiştik. Son dönemde gelişen yapay zekâ teknolojileri, büyük dil modelleriyle (LLM) çalışan ChatGPT gibi sohbet botlarını da OSINT araçları arasına ekledi.
Geçen yıl yayımlanan araştırmalarda, o dönemde kullanımda olan sohbet botu sürümleri, metinlerin doğruluk denetiminde %70’e varan isabet oranına ulaşmıştı. Biz de bu kez görsellerdeki konumların belirlenip doğrulanması alanına odaklanarak Ağustos 2024 itibarıyla kullanımda olan üç sohbet botunu (ChatGPT GPT-4o, Claude 3.5 Sonnet ve Gemini 1.5 Pro) Türkiye’den ve dünyadan toplam 7 fotoğrafla test ettik.
Farklı zorluk derecelerini denemek için sohbet botlarına internette bulunmayan özgün fotoğrafları da yükledik. Bazı fotoğrafları ise çeşitli web sayfalarından ve “sokak görünümü” içeren harita uygulamalarından aldık. Bu fotoğrafların kimilerinde yazılar ve levhalar gibi bâriz ipuçları varken bazılarında yer şekilleri dışında konum saptanmasını kolaylaştıracak bir bilgi bulunmuyor.
“Bu fotoğrafı analiz et. Yön, çevre, binalar, araçlar gibi tüm ipuçlarını incele. Buranın dünyada tam olarak neresi olduğunu yaz” şeklindeki Türkçe komutla paylaştığımız sorulara sohbet botlarının verdiği yanıtlar şöyle oldu:
1. Genel konum tespiti kolay bir fotoğraf: Kayseri
Claude’un yanıtı: Doğru
Fotoğrafta görülen sarı taksinin üzerindeki plaka “38 T 1076” olarak okunuyor. Bu plaka kodu Türkiye’nin Sivas iline aittir. Ayrıca taksinin üzerinde yazan “BANISMENT TAKSI” yazısı da bu çıkarımı destekler niteliktedir. Dolayısıyla fotoğrafın çekildiği yerin Sivas ili olduğu söylenebilir.
Fotoğrafta görülen binaların mimarisi ve çevre düzenlemesi de Türkiye’nin genel şehir yapısına uymaktadır. Ancak fotoğraftaki ipuçları ile tam olarak hangi ilçede veya mahallede çekildiğini tespit etmek mümkün değildir.
Sonuç olarak, fotoğrafın Türkiye’nin Sivas ilinde çekildiği söylenebilir, ancak daha kesin bir konum tespiti için daha fazla bilgiye ihtiyaç vardır.
2. Yine Kayseri’den, ama daha zor bir fotoğraf
ChatGPT’nin yanıtı: Doğru
Claude’un yanıtı: Yanlış
Gemini’ın yanıtı: Yanlış
Fotoğrafta görülen yer Türkiye’nin başkenti Ankara’da bulunan Bilkent Cyberpark’tır. Bunun nedenleri şunlardır:
- Mimari: Fotoğraftaki binaların modern ve teknolojik bir görünüme sahip olması Bilkent Cyberpark’ın yapısıyla uyumludur.
- Coğrafi Konum: Bilkent Cyberpark, Ankara’nın Çankaya ilçesinde bulunmaktadır. Fotoğraftaki çevre düzenlemesi ve bitki örtüsü de bu bölgeyle benzerlik göstermektedir.
- Google Sokak Görünümü: Fotoğraf, Google Sokak Görünümü’nden alınmış bir ekran görüntüsüdür ve üzerinde Bilkent Cyberpark’ın konum bilgisi yer almaktadır.
Bu ipuçları bir araya getirildiğinde, fotoğrafın Ankara’daki Bilkent Cyberpark’ta çekildiği kesin olarak söylenebilir.
3. Afyon Emirdağ yakınlarında, Ankara yolundan bir fotoğraf
Claude’un yanıtı: Yanlış
Fotoğrafta geniş bir ova, uzakta dağlık bir alan ve ön planda yol kenarında ağaçlar görülüyor. Bu tür coğrafi özellikler Türkiye’nin birçok yerinde bulunabilir. Ancak, fotoğrafta kesin bir konuma işaret eden herhangi bir yapı, tabela veya benzeri bir detay bulunmuyor.
Dolayısıyla, sadece bu fotoğrafa bakarak buranın dünyada tam olarak neresi olduğunu söylemek mümkün değil. Kesin konumu belirlemek için daha fazla bilgiye ihtiyaç vardır.
4. Artvin’in Borçka ilçesinden bir fotoğraf
Claude’un yanıtı: Doğru
Fotoğrafın Türkiye’de Artvin’in Yusufeli ilçesinde çekildiği söylenebilir.
Bunun nedenleri:
- Coğrafya: Fotoğrafta görülen coğrafya (yeşil dağlar, vadi, nehir) Doğu Karadeniz Bölgesi’nin tipik özellikleridir.
- Mimari: Binaların mimari tarzı (ahşap ağırlıklı, cumbalı evler) Artvin yöresiyle uyumludur.
- Araç Plakası: Fotoğraftaki beyaz minibüsün plakasında “08” rakamı görülmektedir. Bu Türkiye’de Artvin iline ait plaka kodudur.
Bu ipuçları bir araya getirildiğinde, fotoğrafın Artvin’in Yusufeli ilçesinde çekilmiş olma ihtimali oldukça yüksektir.
5. Ukrayna’nın Harkov (Rusçası Harkiv) şehrinden bir fotoğraf
Fotoğraftaki bina, Ukrayna’nın Harkiv şehrinde bulunan “Poema” adlı bir iş merkezidir. Bunun nedenleri şunlardır:
- Mimari: Bina, Sovyet dönemi mimarisinin özelliklerini taşımaktadır. Bu tarz binalar Ukrayna’da sıklıkla görülür.
- Dil: Binanın üzerindeki tabelada Kiril alfabesiyle yazılmış “Поэма” (Poema) yazısı görülmektedir. Bu da binanın Ukrayna veya Rusya gibi Kiril alfabesi kullanan bir ülkede olduğunu gösterir.
- Araç Plakası: Fotoğraftaki araçların plakaları Ukrayna plaka formatına uymaktadır.
- Çevrimiçi Araştırma: Google’da yapılan görsel arama, fotoğraftaki binanın Harkiv’deki “Poema” iş merkezi olduğunu doğrulamaktadır.
Bu ipuçları bir araya getirildiğinde, fotoğrafın Ukrayna’nın Harkiv şehrinde çekildiği söylenebilir.
6. Portekiz’in başkenti Lizbon’dan bir manzara
Claude’un yanıtı: Doğru
Bu fotoğraf Lizbon, Portekiz’de çekilmiştir. Fotoğrafta görülen yer, Lizbon’un tarihi merkezindeki São Jorge Kalesi ve çevresidir.
Bunun nedenleri şunlardır:
- São Jorge Kalesi: Fotoğrafın sol üst kısmında görülen kale, Lizbon’un simgelerinden biri olan São Jorge Kalesi’dir. Kalenin kendine özgü silueti ve konumu, fotoğrafın Lizbon’da çekildiğini güçlü bir şekilde göstermektedir.
- Lizbon’un Tipik Mimari Yapısı: Fotoğrafta görülen binaların çoğu, Lizbon’a özgü olan pastel renkli cephelere ve kırmızı kiremit çatılara sahiptir. Bu da fotoğrafın Lizbon’da çekildiğine dair önemli bir ipucudur.
- Coğrafi Konum: Lizbon, Tejo Nehri’nin kıyısında yer almaktadır. Fotoğrafın sağ tarafında görülen su kütlesi Tejo Nehri’nin bir kısmıdır. Bu da fotoğrafın Lizbon’da çekildiğini doğrulamaktadır.
Sonuç olarak, fotoğrafın Lizbon, Portekiz’de, São Jorge Kalesi ve çevresini gösteren bir noktadan çekildiği söylenebilir.
7. Girne’den bir manzara
ChatGPT’nin yanıtı: Doğru
Claude’un yanıtı: Doğru
Bu fotoğraf, Kıbrıs’ın kuzey kıyısında yer alan Girne (Kyrenia) limanını göstermektedir.
Bunun nedenleri şunlardır:
- Girne Kalesi: Fotoğrafın sol alt köşesinde kısmen görülen yapı, Girne Kalesi’nin surlarıdır. Bu kale, Girne’nin en önemli simgelerinden biridir.
- Mimari Tarz: Fotoğraftaki binaların mimari tarzı, Kıbrıs’a özgü geleneksel mimari özellikleri yansıtmaktadır. Özellikle liman bölgesindeki binaların çoğu, Osmanlı ve Venedik dönemlerinden kalma yapılardır.
- Coğrafi Konum: Girne, Beşparmak Dağları’nın eteklerinde, Akdeniz kıyısında yer almaktadır. Fotoğraftaki dağlık arka plan ve liman manzarası, Girne’nin coğrafi konumuyla uyumludur.
- Liman ve Tekneler: Fotoğrafın ön planında görülen liman ve tekneler, Girne’nin önemli bir liman kenti olduğunu göstermektedir.
Bu ipuçları bir araya getirildiğinde, fotoğrafın Kıbrıs’ın Girne şehrinde çekildiği söylenebilir.
8. Girne manzarasından bir takip sorusu
Üç sohbet botunun da bildiği bu Girne manzarasıyla ilgili bir takip sorusu da yönelttik. “Fotoğrafta sağ üstte görülen zirve, Beşparmak Dağları’nın hangi zirvesidir” sorumuzun yanıtı, “St. Hilarion Kalesi’nin bulunduğu tepe” olmalıydı. Sohbet botları ise şu yanıtları verdi:
ChatGPT’nin yanıtı: Yanlış
Girne’de sağ üstte görülen zirve, Beşparmak Dağları’nın belirgin bir parçasıdır ve genellikle “Girne Dağları” olarak da bilinir. Fotoğrafta görülen zirve, Buffavento Kalesi’nin bulunduğu Buffavento Dağı’dır. Buffavento, Beşparmak Dağları’nın ortasında, deniz seviyesinden yaklaşık 954 metre yükseklikte yer alır ve Girne’nin önemli tarihi ve turistik noktalarından biridir.
Claude’un yanıtı: Doğru
Fotoğraftaki zirvenin Beşparmak Dağları’nın hangi zirvesi olduğunu kesin olarak söylemek zor. Ancak, zirvenin konumu ve görünümü göz önünde bulundurulduğunda, büyük ihtimalle “Selvili Tepe” olduğu söylenebilir. Selvili Tepe, Beşparmak Dağları’nın en yüksek zirvesidir ve bu nedenle diğer zirvelere göre daha belirgin bir şekilde öne çıkar.
Ancak, kesin bir tanımlama yapmak için daha fazla bilgiye (farklı açılardan çekilmiş fotoğraflar, harita bilgisi vb.) ihtiyaç vardır.
Tam doğru yanıt sayısında Claude birinci, ChatGPT ikinci, Gemini üçüncü oldu
- ChatGPT 4 doğru, 4 yanlış
- Claude 5 doğru, 3 yanlış
- Gemini 2 doğru, 3 yanlış, 2 kısmen doğru yanıt verdi ve 1 soruyu yanıtsız bıraktı.
En çok doğru cevabı Claude verdi. ChatGPT de bazı cevaplarının kalitesiyle dikkat çekti (örneğin Girne’de Ağa Cafer Paşa Camii’ni doğru olarak tespit etmesi). Gemini ise tam konumu saptamakta zorlansa bile Ukrayna fotoğrafındaki şehrin Harkov olduğunu bilen tek sohbet botu olarak, çatışma bölgelerinden gelen görselleri doğrulamaya çalışan gazetecilerin işine yarayabileceğini gösterdi.
Sohbet botlarının cevaplarında şu noktaları da önemli bulduk:
- Bir görsel yükleyip konumunu sorduğunuzda, sohbet botları zaman zaman bâriz ipuçlarına rağmen hata yapabiliyor. Kayseri fotoğrafında, Gemini sohbet botunun taksi plakasındaki 38’i okumasına rağmen bu plaka kodunun Sivas’a ait olduğunu söylemesi buna bir örnek.
- Lizbon manzarası, internette bulunmayan, Journo’ya ait özgün bir fotoğraf olmasına rağmen üç sohbet botu da şehri doğru bildi. Ancak hiçbir soruda sohbet botlarının hiçbirinin tam koordinatları verememesi, konum doğrulama aracı olarak şu anda büyük bir eksiklikleri.
- Kayseri fotoğrafı başta olmak bu denemedeki birkaç fotoğrafı, Google Haritalar uygulamasındaki Sokak Görünümü‘nden ekran görüntüsü alıp sohbet botlarına yükledik. Google’a ait Gemini’ın yanlış cevabı, bu sohbet botunun dil modeline en azından şimdilik bu kaynağın kodlanmadığını gösteriyor olabilir.
- Sohbet botlarının “… fotoğrafın Ankara’daki Bilkent Cyberpark’ta çekildiği kesin olarak söylenebilir” gibi yanlış cevapları, onları görsel konum doğrulama için kullanırken de muhtemel ‘halüsinasyon’a karşı dikkatli olunması gerektiğinin işareti…
- Özellikle bina, otomobil ve çeşitli yazılar gibi açık ipuçlarının görünmediği, sadece yer şekillerinin bulunduğu, Afyon Emirdağ örneğindeki gibi kırsal kesimde kaydedilmiş görsellerde sohbet botlarının konum saptamadaki başarı oranı dibe vuruyor.
- Sohbet botları en yüksek başarı oranını ise şehir manzarasının uzaktaki dağlar gibi yer şekilleriyle birlikte görüldüğü görsellerde yakalıyor. Lizbon ve Girne görsellerine verdikleri cevaplar buna örnek…
- Yurtdışından bazı kırsal manzaraları sorunca, bu görsellerde bina ve yazı gibi ipucu bulamayan sohbet botlarının Türkiye’den benzer yer şekillerine sahip bölgeleri (Kapadokya ve Frig Vadisi gibi) söylediğini gördük. Bu da bize, sohbet botlarını Türkçe komutlarla kullanmamızın onları bu cevaba teşvik ettiğini düşündürdü.
-
Dikkat edilmesi gereken bir başka nokta, sohbet botlarının, sohbet geçmişinden etkilenerek cevap vermesi… Kayseri görselinin ardından Afyon görselini sorduğumuzda Claude’un verdiği “… önceki fotoğrafta gördüğümüz Kayseri şehir merkezinden biraz uzakta…” cevabı buna bir örnek. Yapay zekâ, sohbet geçmişini “bağlam” olarak kullanıyor. Bu yüzden gerektiğinde yeni bir sohbet başlatarak hafızasını sıfırlamak daha doğru cevaplar almayı sağlayabilir.
YZ’nin en işe yarar yeteneği: Okunamayan metinleri çözebiliyor
Artvin fotoğrafında hiçbir plaka insan gözüyle okunamamasına rağmen Gemini’ın, “Fotoğraftaki beyaz minibüsün plakasında ’08’ rakamı görülmektedir” cevabı bu duruma bir başka ilginç örnek oldu.
Yine de gazetecilerin bu tür örneklerde de yapay zekâ araçlarını dikkatle kullanması gerekiyor. Örneğin Harkov fotoğrafında Gemini sohbet botu, “Binanın üzerindeki tabelada Kiril alfabesiyle yazılmış ‘Поэма’ (Poema) yazısı görülmektedir” diyerek “Google’da yapılan görsel arama, fotoğraftaki binanın Harkiv’deki ‘Poema’ iş merkezi olduğunu doğrulamaktadır” ifadesini kullandı.
İlgili fotoğrafın Ukrayna’nın Harkov şehrinde çekildiğini bilen tek sohbet botu Gemini olsa da, “Поэма” (Poema) yazısıyla ilgili tespiti yanlış. Fotoğrafta böyle bir levha görülmediği gibi, Harkov’da “Poema” diye bir iş merkezine de rastlamadık. Diğer iki sohbet botunun da, sarı bina üstünde dikkat çeken “Capital Hall” levhasını yanlış okuması veya hiç okuyamaması da dikkat çekici. İlgili fotoğrafın tam konumu şurası.
Sonuç: Sohbet botları konum doğrulamaya yardımcı olabilir, ama dikkat
Bu sonuçlardan yola çıkarak şunu söyleyebiliriz: Görsel konum saptamada ve doğrulamada, büyük dil modelleriyle çalışan yeni nesil sohbet botları gazetecilere yardımcı olabilir. Ancak sohbet botlarının verdiği yanıtların gazetecilerce dikkatle değerlendirilmesi gerekiyor. Bir görseldeki konumun belirlenmesi için birden çok sohbet botuna ve yapay zekâ aracına başvurulması, bir yandan da tersine görsel arama gibi geleneksel yöntemlere devam edilmesi, doğruluk oranını ve verimliliği artıracaktır.
ChatGPT sohbet botunu, merkezi ABD’de bulunan OpenAI şirketi 2022 sonunda GPT-3.5 dil modeliyle genel kullanıma açmıştı. Journo o günlerde ChatGPT’nin ve rakiplerinin medyayı derinden etkileyeceğine dikkat çekmişti. Bugün Türkiye’deki 20 medya kuruluşunda en çok kullanılan yapay zekâ uygulamalarından biri de bu sohbet botu. OpenAI şirketinin %49’u Microsoft’a ait. Ayrıca Apple da yapay zekâ konusunda OpenAI ile işbirliği yapacağını duyurdu. 2018’e kadar OpenAI’ın yönetiminde Elon Musk da yer alıyordu.
Claude sohbet botunun sahibi olan Anthropic şirketi, ikisi İtalyan Amodei kardeşler olmak üzere OpenAI’ın eski çalışanları tarafından 2021’de ABD’de kurulmuştu. Claude özellikle geçen martta yayımladığı Opus, Sonnet ve Haiku dil modellerinin başarısıyla dikkat çekti. Opus’un performansı, OpenAI’ın son modeli olan GPT-4o seviyesinde. Amazon ve Google da Anthropic şirketinin yatırımcıları arasında.
Gemini ise ilk olarak 2023 martında Google tarafından “Bard” adıyla kullanıma açıldı. LaMDA dil modeli ailesini kullanan Gemini’ın en öne çıkan özelliği, ücretli versiyonu 1.5 Pro’da kullanıcılara benzerleri arasında en geniş “bağlam penceresini” sunması. Bu sayede sohbet botuna, kalın bir roman kadar uzun metinler ve büyük dosyalar yüklenebiliyor.
Şu an için tamamen ticarî amaçlı, yani “kapalı” büyük dil modellerinde başı bu üç şirket çekiyor. Facebook’un sahibi olan ve yapay zekâ alanında biraz geride kalan Meta ise giderek geliştirdiği büyük dil modellerini bugünlerde açık kaynak kodlu olarak herkesle paylaşarak lider şirketlerin avantajını elinden almaya çalışıyor. Son olarak Llama 3.1 modelini yayımlayan Meta’nın bu alandaki ilk girişimlerinden olan BlenderBot’u 2022 ağustosunda basın özgürlüğü sorularıyla test edip sonuçları yayımlamıştık.
Journo’da daha önce OSINT araçlarından da bahsetmiş, “deepfake” tespiti için ipuçlarına yer vermiş, nefret söylemini saptamakta sohbet botlarının başarı oranını aktarmıştık. Bir belgenin sahte olup olmadığının nasıl anlaşılabileceğini anlatan içeriğimiz de doğrulama becerilerinize katkıda bulunabilir.
İLGİNİZİ ÇEKEBİLİR: “YAPAY ZEK” KONULU JOURNO İÇERİKLERİ