“Araştırmacılar için veriye ulaşmak başka şey kaliteli veri ye ulaşmak ise bambaşka bir şeydir”

Çevrimiçi platformlar bize genellikle hatalarla dolu veri ler sağlar. Araştırmacılar bunları düzeltmek için hayalperest kimi girişimlerde bulunarak neden bazı platformların verilerindeki önyargının sebebini araştırıyor.

2018 yılının mayıs ayında Facebook bir “reklam kütüphanesi” kurdu. Bu, siyasetçiler ve onların taraftarlarının bu kişiler hakkında yapılan reklamlara ne kadar para ödediğinin detaylı bilgisini veriyor ve diğer reklam türleri hakkında da daha genel geçer bilgiler sağlıyordu. Özellikle akademik araştırmalar için yapılan bir internet sitesinde Facebook bu aracı “Facebook genelinde yayınlanan tüm reklamların kapsamlı bir biçimde toplanmasını sağlayan bir araç” olarak tarif etmişti.

Ancak araştırmacılar 2019 İngiltere genel seçimlerinde bu aracı kullanmaya kalktıkları zaman bazı reklamların esrarengiz bir biçimde kütüphaneden kaybolduğunu gördü. Oylamadan günler önce, Muhafazakarların, Liberal Demokratların ve Brexit taraftarlarının reklamları bulunamadı. “Boris Johnson” sayfası için kampanya sırasında reklamlara 181 sterlin (yaklaşık 200 avro) harcamış gözükse de aslında bunun için tam 90 bin sterlin (yaklaşık 100 bin avro) harcanmıştı.

Büyük dijital platformlar verilerini açık bir biçimde sunsa bile araştırmacıların gördükleri verinin geçerli ya da doğru olup olmadığı konusunda garantisi yoktur.

Rastgele Olmayan Örneklem

Grifswald Üniversitesi doktora sonrası araştırmacısı Jakob Jünger, araştırmacıların Facebook, YouTube ve Twitter’dan veri çekmelerini sağlayan Facepager isimli bir araç geliştirdi. AlgorithmWatch’a Facebbok’un bu araç için senelik 600 post çekmeye izin verdiğini söyledi. Ancak, Facebook bunun hangi 600 post olduğuna dair bir açıklamada bulunmuyor. (Yakın zamanda yapılan bir araştırma daha fazla etkileşim alan postların çekildiğini göstermiş.) Örneklemin rastgele olmaması ve yöntemin açık bir biçimde verilmemesi araştırmacıların böyle veriler üzerinde yapabildiği hipotezlerin testlerinin önüne ciddi bir limit koyuyor.

Eskiden Oxford’da uzman araştırmacı olan (ve şimdilerde de Pennysylvania Üniversitesi’nde doçent olarak çalışan) Sandra González-Bailón, 2012’de yazdığı bir makalede Twitter tarafından sunulan ve iki farklı erişim noktasından elde edilen, aynı hashtag’leri içeren iki tweet örneğini karşılaştırdı (“Arama” ve “Sayfa Akışı” ara yüzleri). İki örneklem arasında çok az bir biçimde örtüşme olsa bile ortaya çıkan farklılık tweet seçimlerinin rastgele yapılmadığını gösteriyordu. O ve çalışmayı birlikte yaptığı yazarlar tüm tweetlerin olduğu veri setine ulaşmadan “sadece seçim hakkındaki önyargının ölçüsü” hakkında bazı spekülasyonlarda bulunabiliriz ifadelerini kullandılar. 2016 yılında ise Arizona Devlet Üniversitesi’nden bir bilgisayar bilimcisi bot’ların Stream ara yüzünü geri dönen tweetleri etkilemek için bir tarafa çektiğini gösterdi.

Akademisyenler hala bu önyargıları değerlendirmek için çabalarını diri tutuyorlar. Jünger şimdilerde “Bir beğeni ne zaman bir beğenidir?” başlıklı o ve iş arkadaşlarının araştırmacıların farklı platformlardan alınabilen datalarla neler yapabileceklerini daha iyi anlayacakları bir araştırma programının başında. İlk sonuçların 2022’de yayınlanması bekleniyor.

Suçüstü

Bazı platformlar kendi şirket kazançları için sahip oldukları bilgilerde sahtecilikten suçüstü yakalandı. 2017’de yapılan bir araştırmada, İngiliz Rekabet ve Pazarlar Kurumu otel rezervasyonu yapan bazı internet sitelerinin tüketicilere “sadece 1 oda kaldı!” gibi mesajlar göndererek baskı uyguladığını söyledi.  Kurum geçen sene bazı internet sitelerinin aldatıcı pratiklerden kaçınmayı kabul ettiğini de duyurdu. Tüketici hakları dergisi Which’e göre ise buna uyulup uyulmadığı meselesi belirsizliğini koruyor.

2019 yılında ABD Federal Ticaret Komisyonu buluşma hizmeti veren bir size olan Match.com’a platformun potansiyel kullanıcıların bilinçli bir biçimde hedef alınmasına izin verildiği için dava açacaklarını duyurdu. Platform bazı mesajların gerçek olmadığını bilmesine ve ödeme yapan kullanıcılara gösterilmesini engellerken, yine de bazı dolandırıcıların hizmetten faydalanmak için üyelik almalarını umdukları ödeme yapmamış kullanıcılara ulaşmasını sağlıyordu.

Veriye zarar vermek tüketicileri yanlış yönlendirdiği noktada son derece cezalandırılabilir bir suç. Ancak ben araştırmacıları yanlış yönlendirdiği için ceza ödemek zorunda bırakılan bir şirketten haberdar değilim.

Veriye Önyargılarıyla Uğraşmak

Angela Xiao Wu ve Harsh Taneja yakın zamanda çıkacak makalelerinde çevrimiçi platformlar tarafından elde edilen veri nin hiçbir zaman önyargıdan tamamen uzak olamayacağını tartışıyor. Bunun yerine araştırmacıların bir platformun neden veriyi belli bir biçimde sağladıklarını araştırmaları gerektiğini yazıyor. Araştırmacılar böyle platformlardan veriyi olduğu gibi aldıkları zaman şirketlerin kendisine faydalı olan analizi üretmenin önüne geçiyor.

Greifswald Üniversitesi’nden Jünger de bu konuda aynı fikirde. AlgorithmWatch için yazan Jünger, eğer platformları “Sosyo-teknik sistemler” olarak kabul edersek, veri kalitesinin araştırılması gerektiğini ve verilerin hangi mekanizmalar tarafından üretildiğinin sorgulanması gerektiği konusu üzerinde duruyor. Ona göre platformların kendisi aslında bir araştırma konusu. Bunu yapmak için özellikle platformu işleten şirketlerin ne yayınladığını, hangi içeriğin farklı platformlarda yayınlanma eğiliminde olduğunu ve kullanıcıların da bu konudaki fikirlerini analiz ediyor.

Çeviren: Pınar Eldemir

Kaynak (ingilizce): https://algorithmwatch.org/en/story/research-data-quality/

Kaynak (Türkçe – Çeviri): https://veribulteni.voyd.org.tr/arastirmacilar-icin-veriye-ulasmak-baska-sey-kaliteli-veriye-ulasmak-ise-bambaska-bir-seydir/

 

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir