Haber

Veri seti arama: Google Dataset Search gazetecilerin de işine yarayacak

Google, internetteki 25 milyon veri kümesi üstünde arama yapmayı kolaylaştıran “Dataset Search” hizmetini kullanıma açtı. Araç, özellikle veri gazetecilerinin işini kolaylaştıracak. Türkiye ile ilgili veri setleri de bu arama motoru üstünde bulunuyor ama şimdilik en büyük eksiklik Türkiye’deki kurumların henüz sisteme dâhil olmaması.

İnternette veri bol. Devletlerin, üniversitelerin, şirketlerin, sivil toplum örgütlerinin ve diğer birçok kuruluşun elde ettiği veriler milyonlarca site üstünden erişilebilir durumda. Bunların toplandığı veri setlerini derli toplu görmek, iyi yapılandırılmış “temiz” verilere ulaşmak ise çok zaman alabiliyor. Google bu sorunu çözmek için Dataset Search (“Veri Kümesi” veya “Veri Seti” Arama) adlı aracını 2018 eylülünde geliştirmeye başlamıştı.

Google Dataset Search, internetteki diğer içerikler arasında kaybolup giden veri kümelerini topluca arayıp bulmayı mümkün kılıyor. Her internet sitesi, yayımladığı veri setlerini etiketleyerek Dataset Search üzerinden erişilebilir hâle getiriyor. Bu özel arama motoru üstünde, Verge‘ün deyişiyle, “kayak yaparken yaralanma oranlarından yanardağ patlamalarına ve penguen nüfusuna kadar her şey artık var.”

Google, Dataset Search’ü geçen hafta beta statüsünden çıkardı ve artık gelişmiş bir ürün olarak hizmete açtı. Son sürüme eklenen özellikler arasında veri kümelerini tablo, metin, görsel veya coğrafi bölgeye göre filtreleme de var. Google tam sayı vermese de “yüz binlerce kullanıcının Dataset Search’ü denediğini” ve “bilim camiasının geri bildiriminin olumlu olduğunu” söylüyor.

TÜİK verilerinin etiketlenmesi gerekiyor

Habere göre bugün için Dataset Search üstünde en çok veri kümesinin bulunduğu konular yer bilimleri, biyoloji ve tarım. En çok yapılan aramalar ise “eğitim,” “hava durumu,” “kanser,” “suç,” “futbol” ve “köpekler.”

Türkiye ile ilgili birçok veri kümesi Dataset Search üstünde bulunabiliyor. Örneğin “İstanbul” diye arama yapıldığında, 1926-1950 arasında İstanbul’da kayıtlı olan şirketlerin listesi veya 2017’de İstanbul’da en çok ziyaret edilen müzeler gibi verilere ulaşılabiliyor. Ancak bu veriler şimdilik sadece uluslararası akademik arama motorları veya Statista gibi Türkiye dışı kaynaklardan geliyor.

Türkiye İstatistik Kurumu (TÜİK) ve üniversitelerimiz başta üzere Türkiye merkezli olarak veri üreten kurumların, ilgili kümelerin meta verilerini gerekli formatta etiketlemesi hâlinde bunlar Google Dataset Search üzerinde de bulunabilir olacak.

İLGİNİZİ ÇEKEBİLİR – BİZE ARTIK VERİ SAVAŞI MUHABİRİ LAZIM

Journo

Yeni nesil medya ve gazetecilik sitesi. Gazetecilere yönelik bağımsız bir dijital platform olan Journo; medyanın gelir modellerine, yeni haber üretim teknolojilerine ve medya çalışanlarının yaşamına odaklanıyor, sürdürülebilir bir sektör için çözümler öneriyor.

Journo E-Bülten