Montaj tespit araçları: "Seçimler yılında klon seslere hazır mıyız?"

Gülin Çavuş @gulincav

Siyasete atılan eski futbolcu Gökhan Zan’ın, 31 Mart yerel seçimlerine günler kala bir ses kaydının ortaya çıkması üzerine Türkiye İşçi Partisi’nin Hatay belediye başkanlığı adaylığından çekilmesi tartışılıyor. Zan ses kaydının “montaj” ve “deepfake” olduğunu iddia etti. Gazetecilerin yakından takip ettiği son iddialar savcılığa intikal etti.

“Seçimler yılında klon seslere hazır mıyız” diye soran Gülin Çavuş ve Mert Can Yılmaz ise demokratik süreçleri hedef alan sesli manipülasyonların yapay zekâyla yaygınlaşabileceği uyarısında bulunuyor. Aynı yöntemle gerçeklerin de “montaj” denilerek gizlenebileceğini vurgulayan iki yazar, ses klonlamanın nasıl yapıldığını, şüpheli bir kayda nasıl yaklaşmamız gerektiğini ve tespit araçlarını anlatıyor.

“Ey [buraya siyasi hasmınızın ismini yerleştirin]! Ya sen kimsin? Kulağımla duyduğuma mı inanacağım, sana mı?”

Bir talihsizlik sonucu 21. yüzyıl Türkiyesi’nde siyaseti günü gününe takip etmek zorunda kalmışsanız muhtemelen resmî gibi görünen yanıltıcı belgeler ve manipüle edilmiş videolar gibi şeylere pek de yabancı değilsinizdir. Sahte belgelere dayalı tartışmalı yargı kararlarıyla bezeli yakın tarihimizin olmazsa olmazlarından olan bu “araçlar” yeni değil. Yeni olan şey artık bunların üretiminin geçmişe nazaran çok daha basitleşmiş ve oldukça efektif yapay zekâ uygulamalarıyla desteklenebiliyor olması.

Ses klonlama araçlarının hâlihazırda Hindistan, Birleşik Krallık, Sudan ve Etiyopya gibi ülkelerde seçimler bağlamında kullanıldığını biliyoruz. Nijerya’da geçtiğimiz sene gerçekleşen seçimlerde sosyal medyada yayılan bir ses kaydıyla muhalif başkan adayının seçimlere hile karıştırma planlarının açığa çıktığı iddia edilmişti. Ancak ilgili kayıt bir ses klonlama uygulamasıyla oluşturulmuştu. ABD Başkanı Joe Biden’ın sesinin klonlanarak New Hampshire’daki demokrat seçmenlerin oy kullanmaktan vazgeçirilmeye çalışıldığını daha önce anlatmıştık.

Gelin şimdi 31 Mart yerel seçimleri yaklaşırken ses klonlama meselesi odağında güncel durumun siyasi yaşamımıza ve demokrasiye potansiyel yansımalarına ilişkin üç ayrı senaryo hayal edelim.

Senaryo 1: Sahte ses kaydıyla hedef alınan muhtar adayı Zerrin

Zerrin’in sınavı zorlu. Klonlanan sesiyle Zerrin’e neler neler dedirtilmiş… Zengin bir semtte bir önceki dönem muhtar olan ve muhtarlığa devam etmek isteyen Zerrin, kayıtta duyulduğuna göre aldığı rüşvetleri yeterli bulmamış, daha fazlası için pazarlık yapıyor. Zerrin’in sesi klonlanarak oluşturulan kayıt, kendisini seçim yarışından ayrılmaya zorlayabilecek düzeyde olabilir.

Zerrin’in en yakın arkadaşları dahi sesin gerçek mi kurgu mu olduğunu anlamakta güçlük çekebilir. Bir kayıtta yer alan sesin klonlanarak oluşturulup oluşturulmadığını anlamak için çeşitli yöntemler varsa da dezenformasyonun yayılma hızı, işin doğrusunun yayılma hızından maalesef çok daha fazla. Eğer Zerrin’in seçmenleri yapay zekâ uygulamalarıyla üretilebilecek dezenformasyon nitelikli içeriklerin farkında değillerse durum kötü.

Şunu da unutmamak gerek: Bilgi operasyonlarının kritik bir amacı da suyu bulandırmak, sadece dezenformasyonu yaymak değil. Zerrin, hakikat ile kurgu arasındaki çizgiyi açığa çıkartmakla uğraşırken rakipleri propaganda çalışmalarına etkin bir biçimde devam ediyor.

Şüpheli bir ses kaydına nasıl yaklaşmalı?

NiemanLab’de yayınlanan bir makalede bu tarz ses kayıtlarının ardındaki hakikati açığa çıkarmak için kanıt temelli yaklaşmak gerektiği ifade edilirken kaydın kaynağına inmenin önemi vurgulanıyor. İlgili makaleden de esinlenerek karşınıza çıkan ses kayıtlarını incelerken şu noktaların önemli olduğunu söyleyebiliriz:

Ses kaydı şüpheli göründüyse bunu mümkün olan en kısa süre içerisinde incelemeye tâbi tutmak gerek. Kayıt yanıltıcıysa doğrusunun ne olduğunu kısa süre içinde ortaya koymalı. Kesinlikle Mark Twain’e ait olmayan şu çıkarımı hatırlatalım: Gerçek ayakkabılarını giymeden yalan dünyayı üç kez dolaşırmış. Üçü beşi bilemeyiz ama ana fikir okay.
Dikkat! Gerçek ses kayıtları da cızırtılar veya seste düzensiz iniş çıkışlar içerebilir. Kulağımızla duyduğumuz ipuçları önemli ama bunlar sesin yanıltıcılığı hakkında bizi kesin bir yargıya götürmez.
Teyitçilik mühim.
Bu iş için kullanılabilecek araçları tanıyalım. Bir kayıttaki sesin klonlanıp klonlanmadığını Resemble AI, DuckDuckGoose veya AI Voice Detector gibi araçlar vasıtasıyla tespit etmek mümkün. Öte yandan algoritma bazlı dedektörlerin önemli bir kısmının “western bias” sergilediğini anımsatalım. Klonlanmış İngilizce sesin tespiti, Türkçe sesin tespitinden şimdilik daha kolay. Buna Reality Defender, Mozilla’nın Common Voice projesindeki seslerle çalışarak çare bulmuş gibi duruyor. Common Voice’ın farklı diyalekt, aksan ve ses birimlerini içermesi klonlanmış sesin tespiti için geliştirdikleri makine öğrenmesi modelini güçlü kılıyor.
Mesele dönüp dolaşıp bilgi ekosisteminin paydaşlarına duyulan güvende düğümleniyor gibi. Bir ses kaydının teknik incelemesini yapıp ilgili kaydın belki de yüzde 99 klonlanarak oluşturulduğunu ortaya koyabilirsiniz. Ama mesela gazeteciysek ve geçmişte toplumun medyaya duyduğu güveni zedeleyen faaliyetler sıklıkla yaşanmışsa, medya olayın doğrusunu ortaya koyduğunda takipçisini ikna edebilecek mi?
Yasal düzenlemeler de gerekli tabii. Yapay zekâ uygulamalarıyla sesini klonlayarak rakibini seçim yarışından düşürme arzusunda olan siyasetçiler olabilir. Bu elbette etik değil. Yasal bazı çalışmalarda bulunmak gerek. Bakınız Avrupa Birliği yapay zekâ Yasası, genel olarak bu alanda atılmış ilk somut adımlardan.

Senaryo 2: Söylediği abuk subuk sözler için “bunlar montaj” diyen belediye meclis üyesi adayı Muammer

Muammer az çakal değil. Biliyor ki yapay zekâ uygulamaları ses klonlamada hayli becerikli. Söylediği söz kendi seçmeni nezdinde geri mi tepti? Kendisine öfkeli tweetler mi yağıyor? Muammer “işini biliyor,” suçu yapay zekâya atıp aradan sıyrılmaya çalışıyor. Bu sırada hasımlarını da siyasi etiğe davet ediyor. Ah Muammer ah, sen yok musun…

Bu sefer sınav vakti Muammer’in hitap ettiği seçmen kitlesi için. Günümüzde gerçek bir ses kaydının gerçek olduğundan nasıl emin olabiliriz? Muammer yapay zekânın arkasına saklanıp söylediklerinden sorumlu olmadığını iddia edebilir mi?

Yalancının temettüsü de ne ola ki?

Robert Chesney ve Danielle Keats Citron ortaya atılan “liar’s dividend” kavramını Türkçe’ye “yalancının temettüsü (veya kâr payı)” olarak çevirebiliriz. Kavramın kendisi, niyeti bozuk aktörlerin kendilerine ilişkin gerçek bilgilerin de sahte olduğunu iddia ederek hakikati itibarsızlaştırılmasını sağlayabileceğini söylüyor. Böylelikle yalana yaptıkları yatırımın getirisi (veya temettüsü), kendi itibarlarını bir nebze koruyabilmeleri. Bu da günümüzde geçmişe nazaran çok daha kolay. Gerçek bir ses kaydına “montaj bu” diyerek işin içinden sıyrılmak gibi…

Yalancının temettüsü, bilgi ekosistemini fasit bir daireye hapsediyor. Kısaca şöyle düşünelim:

Şüpheciliğin sağlıklısı mühim. Gelişen teknolojilerle desteklenen sahte içerik üretim tekniklerinden haberdar olmak önemli ancak, doğruluğunu teyit etme çabasına girmeksizin karşımıza çıkan tüm ilgili içeriklerin yanlış olabileceği varsayımına sahip olursak bu durum yalancının temettüsü için elverişli koşulları yaratıyor.
Niyeti bozuk şahıslar her yerde var. Bahsettiğimiz bu sağlıksız şüphecilik hâlini sömürmeye gayret edeceklerdir. Kendilerine dair gerçek bilgilerin aslında uydurma olduğunu iddia edebilirler. İnsanlar sahteciliğin teknik olarak mümkün olduğunu bildiğinden bu şahıslara kolayca kanabilirler. Kanmasalar da “acaba mı” demeleri bile kâfi… Suyu bulandırmak da iş görüyor.
Nihayetinde yaşanan güven erozyonu neticesinde yalancının mumu yatsıdan sonra da yanıyor. Hakikat ile sahte olan arasındaki ayrımın bulanıklaşması, bilgi ekosisteminde gezinen bir virüs gibi. Bilgi ekosisteminin samimi paydaşları halka gerçeğin ne olduğunu aktarmakta güçlük çektikçe yanıltıcı bilgi elini kolunu sallayarak dolaşmaya devam ediyor.

Senaryo 3: Yapay zekâyla siyasi propaganda materyali hazırlayan belediye başkan adayı Hatice

Hatice illa kötü niyetli olmak zorunda değil. Gelişen teknolojilerin farkında. Yapay zekâ uygulamalarını siyasi propaganda amaçlı en etkin nasıl kullanabileceğinin yollarını aramış ve bazı şeyler bulmuş da. Kendi siyasetini farklı dillerde aktarabilmek için ses klonlama teknolojisinden faydalanan Hatice sadece Türkçe değil, klonlanmış sesiyle seçmenlerine İngilizce, Kürtçe, Arapça da sesleniyor. Çokdilli bir yaklaşım siyasette elbette mümkün. Sesinin klonlanarak farklı dillere çevrildiğini seçmenleriyle açıkça paylaştığı müddetçe Hatice’nin durumunun etik açıdan problem oluşturmadığı da savunulabilir.

Hatice’nin niyeti de izlediği siyaset de kimilerince doğru addedilebilir. Ama kendisinin izlediği yöntemi izleyen niyeti tartışmalı aktörler de çıkacaktır illa ki. Bakınız İsveç’te çıkmış bile.

İsveç’in göçmen karşıtı, sağ milliyetçi partisi İsveç Demokratlarının lideri Jimmie Åkesson, geçtiğimiz aylarda Arapça bir video yayımladı. Åkesson, Arapça biliyor değil. Partisi, kendisinin sesini klonlayarak ülkedeki Arap kökenli göçmenlere kendi dillerinde bir nevi mesaj vermek istediklerini ima ediyor. Öte yandan anlaşılır nedenlerden ötürü ülkedeki göçmenler arasında pek de popüler olmayan Åkesson’un bu çıkışıyla aslında kendi sempatizanlarına bir mesaj vermek istediği daha makul bir yorum olur muhtemelen.

Bir bilene sorduk: Bu ses klonlama gerçekte nasıl çalışıyor?

Yapay zekâ ile ses klonlama uygulamalarının teknik olarak nasıl çalıştığını, bu teknolojiyi eğitim materyalleri hazırlamak için kullanan bir çevrim içi eğitim platformunda Dijital Ürün Koordinatörü olarak çalışan veribilimci Pınar Kılıç’a sorduk. Pınar, bize bir makine öğrenmesi uygulaması tarif etti.

Burada hemen araya girelim. Basit bir makine öğrenmesi uygulaması bağımlı bir değişkenin değerini bağımsız değişkenler vasıtasıyla tahmin etmeyi amaçlıyor. Bu şu anlama geliyor: Örneğin bir arabanın ikinci el piyasasındaki değeri; arabanın markasına, modeline, üretim yılına, daha önce kaza yapıp yapmadığına ve bunlara benzer birçok değişkene bağlı olabilir. Elimizde yeteri sayıda ikinci el araba fiyatı ve bu fiyatlarla ilişkilendirilmiş bahse konu olan değişkenlerin değerleri varsa hangi değişkenin araç fiyatını ne ölçüde etkilediğini tespit edebiliriz. Aracın kazaya karışmış olması fiyatı negatif yönde etkiler. Araç daha yakın bir tarihte üretilmişse bunun pozitif yansımasını görürüz. Makine öğrenmesi kısaca sayısal olarak hangi değişkenin araç fiyatını ne ölçüde etkilediğini tahmin etmemize yardımcı oluyor.

Mesele yapay zekâ ile ses klonlamaya geldiğinde esasında benzer bir sürecin yürüdüğünü anlayabiliyoruz. Pınar şöyle diyor:

Ses klonlama dediğimiz şey aslında kişinin sesinin sahip olduğu karakteristik özelliklerin tespiti ve sentezi ile alakalı. Hepimizin sesinin bir tonu, perdesi var. Aksanımız var. Kullandığımız dile bağlı olarak bazı şeyleri ifade ediş biçimimiz de değişiyor. Özünde bir sesin klonlanması, sesi yaratan tüm farklı değişkenlerin derin öğrenme algoritmaları ile tespiti ve sentezi ile mümkün oluyor.
Bunun için ise gerekli olan şey öncelikle veri. Bu örnekte veri dediğimiz şey kişinin gerçek sesini içeren kayıtlar. Bu ses kayıtları farklı fonemler içermeli. Yani farklı kelimeler, ifadeler, vurgular… Kişinin sesindeki nüansları duyabilmeliyiz. Veri, sesin karakteristiğine dair ne kadar farklı element (ya da makine öğrenmesi dünyasında “özellik”) içeriyorsa elimizde bir makine öğrenmesi modeli eğitmek için o kadar kuvvetli bir veriseti vardır diyebiliriz.
Bu örnekte makine öğrenmesi modelini eğitmek demek, örneğin verisetinde duymadığımız “hava” kelimesinin bu ilgili karakteristiklere sahip bir ses tarafından nasıl seslendirilebileceğini tahmin edebilecek bir model geliştirmek anlamına geliyor. Eğer ağzımızdan çıkan seslerin fonetik karşılıklarını da değerlendiren nitelikli bir model geliştirebilirsek herhangi bir metni klonlanmış sese okutmamız mümkün. Ses klonlama text-to-speech (metinden sese) veya speech-to-speech (sesten sese) yöntemlerle hayata geçirilebilir.
Mükemmel bir klon oluşturmak zor bir zanaat. Ancak yeterli veri, uygun algoritma ve başarılı bir model geliştirme sürecinin ardından yürütülebilecek ekstra bir ses temizleme, düzenleme süreci ile insan kulağının ilgili sesi gerçeğinden ayırt etmesi güçleşebilir.

Pınar’ın aktardığı sürecin özellikle siyasetçiler için biraz tedirginlik verici olabileceği kolaylıkla anlaşılıyor. Nitekim tanınan siyasetçilerin yüzlerce saatlik ses kayıtları hâlihazırda çevrimiçi ortamlarda zaten dolanıyor.

Tabii asıl konumuz siyaset olduğundan siyasetçileri vurguluyoruz. Bu tarz kayıtlar sıradan vatandaşı içeren basit şakalara konu olabilir, gülüp geçebiliriz. Ünlü isimlerin yer almasıyla reklam veya dolandırıcılık amaçlı da üretilebilir. Jennifer Aniston size 10 dolara MacBook dağıttığını söylüyorsa o 10 doları göndermeden önce siz yine bir kez daha düşünün deriz.

Bu yazı ilk olarak 12 Mart 2024 tarihli Yapay Gündem e-bülteninde yayımlandı. Akış gereği hafif düzenlemeler yaptık.

İLGİLİ:

En derin sahtekârlık: Deepfake teknolojisi 2020’ye damga vurabilir

Recep Tayyip Kılıçdaroğlu: Dikkat, sahte video üretmek artık çocuk oyuncağı

Haber merkezinde üretken yapay zekâ kullanırken dikkat etmeniz gerekenler

Yazar hakkında

Tüm içeriklerini gör

Gülin Çavuş

Dezenformasyon konusunda hem teorik hem pratik alanda uzman. Teyit’in eş kurucusu. 2017’de Uluslararası Doğruluk Kontrol Ağı Bursu ile mülteciler hakkında yayılan yanlış bilgilere odaklandı. Platformların dezenformasyonu nasıl sorumlu bir şekilde ele alabileceğini araştıran makaleler ve raporlar yazıyor. IPI'ın Türkiye Ulusal Komitesi ve Avrupa Doğruluk Kontrolü Standartları Ağı'nın Yönetim Kurulu üyesi. Kentsel Politika Planlaması ve Yerel Yönetimler alanında yüksek lisans derecesine sahip. Araştırma alanları arasında yerel yönetimlerin sosyal medya kullanımı üzerinden sivil katılım konusu da var.

Yazar hakkında

Tüm içeriklerini gör

Mert Can Yılmaz

Uppsala Üniversitesi Barış ve Çatışma Araştırmaları Bölümünde araştırma mühendisi. Bölümdeki Uppsala Çatışma Verileri Programı’nda kıdemli analist olarak görev yapıyor. Özellikle doğal dil işleme teknikleriyle ilgileniyor. Hem barış ve çatışma çalışmaları alanında hem de din çalışmaları alanında yüksek lisansı var. Son tezini ise dini bağlılıklara sahip toplulukların yapay zekâ destekli uygulamalardan hizalanma problemi (AI alignment) odağında beklentileri üzerine yazdı. Zaman zaman Teyit ekibine de araştırmalarında destek oluyor.

Montaj tespit araçları: “Seçimler yılında klon seslere hazır mıyız?”

Senaryo 1: Sahte ses kaydıyla hedef alınan muhtar adayı Zerrin

Şüpheli bir ses kaydına nasıl yaklaşmalı?

Senaryo 2: Söylediği abuk subuk sözler için “bunlar montaj” diyen belediye meclis üyesi adayı Muammer

Senaryo 3: Yapay zekâyla siyasi propaganda materyali hazırlayan belediye başkan adayı Hatice

Bir bilene sorduk: Bu ses klonlama gerçekte nasıl çalışıyor?

Yazar hakkında

Gülin Çavuş

Yazar hakkında

Mert Can Yılmaz

Journo E-Bülten

ÖNE ÇIKANLAR

Medya yeni çözüm sürecini nasıl görüyor?

Bayram gazetesi: Ne zaman başladı, nasıl bitti?

İklim haberleri ne kadar anlaşılır?

Türkiye medyasında üç gazete üç dönem

Biz değil, Almanya yaptı

TGS: Basın özgürlüğü “TCK 217/A” kıskacında

Dünyada 3 Mayıs: Gazeteciler haber yapmak için canlarından oldu

Yoksulluk haberi yapıyorlar, peki onların payına ne düşüyor?