Common Voice: Makineler şirket güdümünde konuşup yazmasın diye

Özellikle akıllı telefonlarda yoğun biçimde kullandığımız sesli asistan teknolojileri yapay zeka sayesinde çok hızlı gelişiyor. Ses tanıma sistemleri, makinelerin dil öğrenimi, otomatik deşifre ve bunların gazeteciliğe etkisi artık fantazi değil. Common Voice bu yeni alanın şirketlerin tekelinde boğulmaması için başlatılan değerli bir çaba.

Apple’ın Siri’si, Samsung’un Bixby’si, Microsoft’un Cortana’sı ve Google’ın Asistan’ı… Milyonlarca insan mobil cihazlarında sesli asistanları kullanarak bu teknolojinin gelişimine katkıda bulunuyor. Bu sayede sesli asistanlar neredeyse tüm işleri görür hâle geliyor. Hatta onlarla sohbet edenler bile oluyor.

Sesli asistanlar insan gibi düşünürse?

Sesli asistanların kullanılmaya yeni başladığı dönemde, bu teknolojinin toplumsal hayatı nasıl dönüştüreceği, yapay zeka ile birleşerek düşünen ve sorgulayan, kendi karakterleri olan ve yüksek işlemcilerle çalıştığı için insandan daha hızlı öğrenen ‘kişiler’ olup olmayacağı tartışılıyordu. 2013 yılında ünlü yönetmen Spike Jonze, Her filminde bu konuyu farklı ve yaratıcı bir bakış açısıyla gösterdi. Hikâyede eşinden yeni boşanmış ve mutsuz biri olan Theodore Twombly’in yapay zeka Samantha ile duygusal ilişkisi anlatılıyordu.

Makineler insan gibi konuşmaya başlarsa?

Ve nihayet geleceğe dair bu hayâllerin gerçeğe dönüşmeye başladığı bir dönemdeyiz. Google’ın yazılım geliştiricileri için her yıl düzenlediği Google I/O 2018 festivalinde Google Asistan yazılımlarının yapay zekayla geliştirilmiş Google Duplex hâlini tanıttı. Google Duplex sizin gündelik yaşamınızı organize den bir sekretere dönüşürken, sizin adınıza çeşitli işletmeleri arayarak randevu alıyordu. Aşağıdaki videoda bir kuaför ve lokantada çalışanlarla konuşan yazılım, gerekli randevuları alarak ‘sahibi’nin kendisine verdiği görevleri yerine getiriyor. İşin en ilginç yanı ise telefonun diğer ucundakilerin bir insanla konuştuklarından emin olması.

Makinelere dil öğretmek sadece şirketlerin işi mi?

Google, Amazon, Facebook, Apple, Microsoft gibi şirketler bu teknolojileri geliştirmek için süreci büyük bütçeler ve projelerle yönetiyor. Biz yurttaşlar ise bu teknolojileri kullanıyor ve araştırma-geliştirme süreçlerine -bilerek ya da bilmeyerek- gönüllü bir şekilde katkıda bulunuyoruz.

Neredeyse hepimizin kullandığı Mozilla Firefox, Thunderbird gibi kamu lisanslı özgür yazılım araçları üreten ve internet özgürlüğü mücadelesi veren Mozilla Vakfı, büyük şirketlerin kullandığı ses tanıma sistemlerini herkese açık hale getirmek için Common Voice projesini başlattı. Bu sayede siz de, herkesin cihazlara ve web’e yönelik uygulamalar geliştirmede kullanabileceği açık kaynaklı ses veritabanına sesinizi bağışlayabiliyorsunuz. Uygulamadan ya da web’den gelen cümleleri seslendirerek makinelere yardımcı oluyorsunuz.

Bu sürece Barcelona’dan (İspanya) katkı sunanlardan biri olan Baybars Külebi ile projenin detaylarını ve geleceği konuşuyoruz. Aslen fizikçi olan ama yazılımcı olarak çalışan Külebi, ODTÜ fizik bölümü mezunu ve Heidelberg Üniversitesi’nde astrofizik doktorası yapmış. Barcelona’da araştırmacılar ve dilcilerle bir araya gelerek oluşturulan Col·lectivaT isimli bir kültürel araştırma ve danışmanlık kooperatifinin kurucularından.

‘Common Voice Türkçe dil algılama konusunda en önemli referans olacak’

Sizin projeye katkınız ve projenin topluma katkısı ne olacak?
Common Voice Projesi makinelerin dil anlamalarını sağlayan, otomatik deşifre ya da otomatik dil anlama (ODA) sistemlerinin açık ve erişilebilir olmasını amaçlayan bir veri toplama projesi. Bu projenin şimdi çıkmasının nedeni ise ODA teknolojisinde son yıllarda yaşanan önemli gelişmeler. Derin öğrenme ve yapay sinir ağlarının ODA teknolojisine uygulanması sayesinde, bu sistemleri eğitmek eskisinden daha kolay hâle geldi. Ve şu an yapay sinir ağlarını kullanan bu ODA yazılımlarına, özgür ve açık kaynak olarak ulaşmak mümkün. Örneğin Mozilla’nın DeepSpeech yazılımı bunun en önemli örneği.

Bu kısa vadede neyi değiştirecek?
Dijital temsiliyeti az olan dillerin halkları dilbilimci ya da ODA uzmanı gereksinimi duymadan, sadece konuşma kayıtlarını kullanarak makinelere kendi dillerini öğretebilecekler. Ancak yapay sinir ağlarını eğitmek için binden fazla saat deşifre edilmiş kayda ihtiyaç duyulduğundan bu verilerin toplanması çok ciddi boyutta bir yatırım anlamına geliyor. Mozilla Vakfı da tam bu noktada güncel duruma müdahale etmek üzere, gönüllülerin kendi dilinde akustik veri toplamasını ve kayıtları dinleyerek kontrol etmesini sağlayan bir uygulama geliştirdi. Bu girişimle amaçlanan ise, toplanan verilerin açık lisanslı olarak yayınlanarak, hem araştırmacıların, hem de açık kaynak kullanan yerel girişimlerin kendi ODA sistemlerini oluşturabilmesi.

Siz bu projenin neresindesiniz?
Mozilla vakfıyla doğrudan bir bağlantım bulunmamakla berber, rolüm herhangi bir yazılımcı olarak açık kaynak koda katkıda bulunmak diyebiliriz. Common Voice projesi Temmuz 2017’de İngilizce kayıt toplamak üzere başladı. Projenin diğer diller için de veri toparlayabilmesi için öncelikli olarak uygulamanın kendisinin, diğer dillere çevrilmesi gerekiyordu ve bu aşamada ben de elimden geldiğince çevirilere yardımcı oldum. En önemli katkım ise sisteme yüklenmesi gereken, sesli okunacak metinlerin hazırlanmasında gerçekleşti. Türkçe bilen yabancı bir dilbilimcinin bu metinleri uygulamanın koduna eklediğini gördüm ancak bu metinlerin sesli okumaya uygun hale getirilmesi için temizlenmesi ve işlenmesi gerekiyordu. Ben de metin korpusunu işleyerek, elimden geldiğince metinleri Mozilla’nın belirlediği standartlara uygun hale getirdim ve bu değişiklikler Common Voice koduna eklendi.

Özellikle ses ve dil konusunda uluslararası toplumda Türkiye Türkçesi’nin görünürlüğünün düşük olduğunu düşünüyorum. Yazılımların Türkçe hâli özelde ise Türkçe seslendirme ve Türkçe algılama konusunda ciddi sıkıntılar var. Bu proje bu eksikliği nasıl kapatabilir? Proje, makinelerin Türkçe konuşmasında veya Türkçe algılamasında standart olabilir mi?
Türkçe’nin görünürlülüğünün özellikle açık kaynak projelerde ve araştırma alanlarında kısıtlı olduğu bir gerçek. Ancak çokuluslu şirketlerin yanı sıra Türkiye menşeili şirketler de bu teknolojiye sahip ve çeşitli hizmetler vermekteler. Bunun en önemli nedeni de Türkçe dilinin hem ülke içinde hem de Avrupa’da esasen önemli bir pazar olması. Ancak araştırmaların kısıtlılığı, dolayısıyla da açık projelere ve verilere ulaşım sıkıntısı nedeniyle, Türkçe dil anlama inovasyon potansiyeli düşük. Konuşma verilerine ulaşmak için çok yüksek meblağlarda para ödenmesi gerekiyor. Bu nedenle Common Voice ile toplanan verilerin şahsen Türkçe dil algılama konusunda en önemli referans olacağını düşünüyorum. Bu veriler gelişmiş sistemlerin kurulmasında, özellikle de ilk aşamada, yeterli olmayabilir. Ancak Common Voice temel sistemlerin geliştirilmesini sağlayarak, inovasyonu hızlandıracağı için çok önemli bir sıçrama tahtası olacağı kesin.

Google yapay zekasının “konuşmasının” insandan ayırt edilemeyecek kadar geliştiğini görüyoruz. Peki Common Voice’nun yapay zeka ve makinelerin “konuşması” sürecine ne gibi katkıları olacak?
Google şu an en yüksek kalitedeki ODA sistemlerini sunmakta, bunun en önemli nedeni Google’a bizzat teslim ettiğimiz veriler, diğer bir nedeni ise Google’ın yüksek yatırım potansiyeli. Ancak Mozilla’nın önayak olduğu bu girişimin en büyük önemi, açık kaynak ve özgür yazılım mantığına dayanması ve dolayısıyla GAFA (Google, Amazon, Facebook, Apple) diye isimlendirebileceğimiz çokuluslu teknoloji oligopolisinin ticaret mantığına bir alternatif oluşturuyor olması. Temelde GAFA şirketlerinin ODA sistemleri kapalı ve merkezi oldukları için, her ne kadar kağıt üzerinde yüksek kaliteye sahip olsalar da; kullanıma, kullanıcıya ve ihtiyaca göre düzenlenmeye, uyarlanmaya açık değiller. ODA sistemlerinin özgür yazılım olmasının arkasındaki mantık ise, GAFA’nın tekelleşmek üzere yaptığı yüksek yatırımlara ihtiyaç duymadan, herkesin kendi sistemini kendi ihtiyacına göre uyarlayarak, GAFA bulutlarına ve sunucularına verilerini de teslim etmeden, makine anlama ihtiyaçlarını karşılayabilmesi.

Sizce dezavantajlı gruplar için projeniz ne gibi imkânlar sunuyor?
Dil anlama ve konuşma sentezi, görme engellilerin bilişim sistemleri ile etkileşebilmesi için de çok büyük bir önem taşıyor. İleriki bir aşamada ise giyilebilir teknolojiler vasıtasıyla, dezavantajlı ihtiyaçlarını karşılayacak edevatların ve uygulamaların geliştirmesinde de yine çok önemli bir yer alacağı kesin.

‘Otomatik deşifre platformlarında patlama var’

Gazetecilik ve yeni iletişim teknolojileri için Common Voice sizce gelecekte ne gibi katkılar sunabilir?
Gazeteciler, araştırmacılar ve görsel-işitsel materyal yapımcıları için ODA sistemlerinin en yaygın kullanımı, otomatik deşifre işleri. Son bir yıl içinde dil anlama sistemlerini kullanarak otomatik deşifre işlerini kolaylaştıran platformlarda bir patlama yaşandı. Bu platformların bir çoğu şu an Google hizmetlerini kullanıyor, bu da kullanıcıların verilerinin aracı platformun yanı sıra, Google sunucularına gittiği anlamına geliyor. Common Voice verileri sayesinde, herkesin kendi bilgisayarında çalışan ve herhangi merkezi bir sunucuya (ya da buluta) bağlanması gerekmeyen dil anlama sistemi kullanan deşifre platformları kurulabilecek. Bizim amaçlarımızdan biri de Common Voice verisinin yayınlanmasıyla birlikte, aynı Katalanca dili için yaptığımız gibi, Türkçe için de bir ODA sistemi oluşturarak bunu açık olarak yayınlamak. Bu yayınlanan modeller ilk aşamada Google kalitesine ulaşamayacak olsa da, kayıtları merkezi bir sisteme bağlanma ihtiyacı duyulmadan, kullanıcının kendi bilgisayarında işlenmesini sağlayacağı için, platform ve uygulama maliyetlerin de düşmesini sağlayacak. Bu da Common Voice verilerinin otomatik deşifre sistemlerinin kullanımının daha da yaygınlaşmasına ön ayak olacağı anlamına geliyor.