Loading

Büyük veri ve bazı rahatsız edici gerçekler

Bu yazıda büyük veri kavramı incelenmiş, büyük veriden ne gibi sonuçlar çıkarılabileceği örnekler üzerinden verilmiştir. En önemlisi ise Büyük verinin Koronavirüsle mücadelede çok büyük yarar sağlayacağı iddia edilmiştir.

Büyük veriyi anlatan görsel

    Konu bütünlüğü açısından yazıyı doğal sırasına okumanız tavsiye edilir, ancak yukarıdaki “içindekiler” kısımdan ilgilendiğiniz kısma tıklamanız da ilgili kısma ulaşmak için yeterlidir.

    Teleskop icat edilince evrenin sadece gördüğümüz kadarından mevcut olmadığı, bilmediğimiz birçok kısmı olduğu; mikroskop icat edilince insanın sadece etten ve kemikten oluşmadığı, hücrelerden hatta hücrelerin de içinde bulunan organellerden oluştuğu ortaya çıktı. Şimdi ise teleskop veya mikroskopun aksine icat edilmeyen, internet sayesinde oluşan ve yapacağı (belki de çoktan yaptığı) devrim maddesel olmayan bir şey var: Büyük veri.

Büyük veri nedir? İnsanlar hangi konularda yalan söyler? Sosyal medya bir yalan deposu mu? Büyük veri sayesinde neler tahmin edilebilir ve bu tahminler ne derece ciddiye alınmalıdır? Büyük veri sayesinde geleneksel anket yöntemleri tarihe mi karışacak? 

  ''Büyük Veri'' nedir?

   Büyük veri Internet'te bırakılan izlerdir ki bu izler sizin tıkladıklarınızdan, izlediklerinizden, beğendiklerinizden, beğenmediklerinizden, yorumlarınızdan ve hatta Google’da yaptığınız aramalardan oluşur. Bu veri hem isminden hem de yukarıdaki tanımdan sizin de tahmin edebileceğiniz gibi çok büyük bir veridir. Bu verilerle uğraşan kişilere veri uzmanı veya veri madencisi denir. Seth Stephens Davidowitz, (Türkçe çevirisi “bana yalan söylediler”, Orijinal adı “Everybody Lies”ın yazarıdır, New York Times’da büyük veriden elde ettiği “küçük” sonuçları paylaştığı bir köşesi vardır.) kendi mesleğini, veri uzmanlığını şöyle tanımlıyor; “. Her gün, insanların internette dolaşırken bıraktıkları dijital izlerin peşine düşüyorum. Tıkladığımız tuşlardan ya da klavyedeki harflerden hareketle, gerçekte ne istediğimizi, gerçekten ne yapacağımızı ve gerçekte kim olduğumuzu anlamaya çalışıyorum.”
Peki, veri uzmanları bunları nasıl yapıyor? İnternet kaynaklı büyük verinin tek farkı büyüklüğünden mi geliyor?

Bilgisayar dünyanın en aptal makinasıdır, siz ona yapması gerektiği şeyi anlatabildiğinizde (ki bu bilgisayarın anlayacağı dillerle olur) ise birdenbire dünyanın en hızlı beynine dönüşür. Büyük verinin diğer verilerden bir diğer farkı da burada yatıyor! Bu verileri saniyeler içerisinde görüntülenebiliyor, grafikleştirilebiliyor, veriler arasındaki ilişkiler ortaya çıkartılabiliyor!

Büyük veriye günümüzde verilen önemi anlatmak için şöyle bir örnekten yararlanmak istiyorum; Amerika’da her ay önceden belirlenmiş bir cuma günü ekonomiyi ve tüm piyasaları anında etkileme gücü bulunan bir veri paylaşılır. Goldman (Amerika’da büyük bir finans şirketi) ve diğer bazı finans şirketleri bu bilginin gelmesini sağlayan fiber optik kablolara yatırım yaparak 17 milisaniyeden 13 milisaniyeye düşmesi için milyonlarca dolarlık yatırım yaptılar. Sadece 4 milisaniye için milyonlarca dolar! Peki, neydi bu veri? Aylık işsizlik oranı…

   Hoşunuza gitmeyecek bazı büyük veri gerçekleri

    Netflix listenizde izlemediğiniz ve belki de hiçbir zaman izlemeyeceğiniz filmler var. Facebook’ta, Twitter’da veya Instagram’da hiç okumadığınız veya sadece başına baktığınız yazıları veya haberleri okumuş gibi paylaşarak, retweetleyerek veya hikaye atarak takipçilerinize “Ben okudum, sen de okumalısın!” diyorsunuz. Sosyal medyada çok sakin ve büyük bir entel gibi görünüyorsunuz ama gerçek hayatta kasa veya ATM sırası beklerken bile sinirleniyorsunuz. Sevgilinizle gezip 30 tane fotoğraf paylaşıyorsunuz ama eve gidince Google’a “Sevgilim benimle neden ilgilenmiyor?” yazıyorsunuz. Twitter’a inanacak olursak cumartesi akşamları her genç gibi siz de partiden partiye koşuyorsunuz ama gerçek hayatta evde patlamış mısırınızla beraber açmış bir Netflix dizisi izliyorsunuz.
“Hadi canım sen de!” dediğinizi duyar gibiyim. Ancak, sevgili okurlar, bunlar benim iddialarım değil… Elimizdeki veriler işin böyle olduğunu söylüyor. Gelin, yukarıdaki birkaç verinin içine girelim.

   Netflix listenizi çoğu zaman izlemiyorsunuz!

   Eğer bir online film/dizi izleme platformu yazılımcısı veya CEO’su olsaydınız, yapacağınız programda insanlar programı kullanmıyorken onlara hangi filmleri ne sırayla önerirdiniz? Kuşkusuz, çoğunuzu (ben de dahil) listesine eklediği filmleri diye cevapladınız bu soruyu. Mantıklı olan da böyledir zaten. Ama işler öyle yürümüyor.
Netflix yazılımcıları bir gün insanların garip bir şekilde listelerine aldıkları filmler onlara bildirim olarak geldiklerinde o filmleri nadiren izlediklerini fark etti. İnsanlar listelerini filmlerle dolduruyordu ama nadiren geri dönüp onları izliyorlardı. Sorun neydi?

   İnsanlara sorun, ''Yakın dönemde ne izlemek istiyorsun?'' diye; listeyi sanat filmleriyle, entelektüel filmlerle, mesela siyah-beyaz çekilmiş ikinci dünya savaşı filmleriyle doldururlar. Ama bir süre sonra fark edersiniz ki seçtikleri filmlerin çoğunu izlemezler. Bunun yerine neyi izlemek istiyorlarsa onları izlerler.

Bunun üzerine Netflix kullanıcılarına listelerindeki filmleri önermeyi bıraktı ve onun yerine bu işi kullanıcıların daha önceden neyi izlediklerini analiz edip neyi sevip izleyeceklerini ortaya çıkaran bir algoritmaya bıraktı. Sonuç? Kullanıcılar Netflix’i eskisinden daha çok ziyaret etmeye başladı. Bu konuya dair Netflix’in veri uzmanının söylediği bir söz hem heyecanlandırıcı hem de endişe verici; “Algoritmalar sizi sizden daha iyi tanır”

    Okumadığınız ve ilgilenmediğiniz şeyleri takip edip okumuş gibi paylaşıyorsunuz!

    Başlıktaki iddia çok büyük bir iddia, ama yukarıdaki örnekte olduğu gibi verilerin vardığı sonuç bu. Nasıl mı? Adım adım açıklayalım.

No Context Amcı on Twitter:

Amerika’daki en çok okunan paylaşılan iki dergiyi ele alalım. Birincisi daha elit ve bilimsel olan Atlantic, ikincisi ise daha çok sansasyonel işler peşinde koşan National Enquirer.

Birinci dergiyi, daha elit olan derginin ortalama etkileşimi 1.5 milyonken daha sansasyonel olan derginin ortalama etkileşimi 50 bin. Güzel, burada sorun nedir?

Yukarıdaki verilere göre bu dergilerin tirajlarının arasında da devasa bir fark olmak zorundadır. Ama işler öyle yürümüyor. Neredeyse baş başa gidiyorlar. Her iki dergide çok yakın sayılarda satış yapıyorlar.

Bu demektir ki; insanlar okumadıkları, ilgilenmedikleri halde daha elit gözüktüğü için Atlantic dergisine sosyal medyada daha fazla etkileşim veriyor.

    Sizce yeni işsiz biri en çok ne yapar?

    Başlıktaki soruya verdiğiniz cevapları duyar gibiyim. Çoğunuz iş arama eylemiyle bağlantılı şeyler söylüyorsunuzdur, ancak işler öyle yürümüyor. Şaşırdınız mı? Pek şaşırtıcı durmuyor. Ancak bitmedi, devamı var.

Peki, büyük beriyle göre yeni işten çıkarılan biri en çok ne yapar? Porno izler ve kâğıt oyunu oynar. Seth Stephens Davidowitz bir gün 2004-2011 yılları arasındaki ABD’deki işsizlik oranlarıyla Google aramalarının ilişkisini inceledi ve hepimiz gibi en yukarılarda “yeni iş”, “işsizlik bürosu” gibi aramaları bekledi. Tabii onlar da üst sıralardaydı ama birincilik porno sitelerinde ve kâğıt oyunlarındaydı.

    Zenginler daha çok yaşıyor!

    Hepimiz zenginlerin de fakirlerin de bir gün muhakkak öleceğini biliyoruzdur, en azından şimdiye kadar buna karşı koyabilmiş birinin var olmadığını biliyoruz. Hem zenginlerin hem de fakirlerin, yani Mark Zuckerberg’in de Çin’deki fabrika işçisinin de öleceğini bilmek bizleri biraz olsun rahatlatıyor. Ama az sonra muhtemelen rahatsız olacaksınız ve kapitalizme karşı olan öfkeniz törpülenecek, hazır olun.

EN ZENGİN VE EN FAKİR İLLER BELLİ OLDU

Büyük veriyle ulaşılan sonuçlara göre (bu sonuçlara ulaşan kişi Seth Stephens Davidowitz değil, bu sonuçlar Harvard'dan Raj Chetty ve ekibi 1996'dan beri tutulan bütün verileri incelemelerinin bir sonucu) ABD’de gelir dağılımında en üst yüzde 1’lik dilimde yer alan kadınlar, ortalamaya vurulduğunda en alt yüzde 1’lik dilimde bulunun Amerikalı kadınlardan 10 yıl daha fazla yaşıyorlar. Aynı oran erkeklerde 15 yıl.
Yine sizleri şaşırtacağını düşündüğüm yukarıdaki çalışmanın bir başka sonucundan daha bahsetmek istiyorum.

Sizce bir şehirde yoksul insanların daha uzun yaşamasını sağlayan nedir?

  1. Şehrin dindarlık düzeyinin yüksek olması
  2. Şehrin hava kirliliğinin düşük olması

  3. Şehrin sağlık sigortasına sahip sakinlerinin yüzdesinin yüksek olması

  4. Şehirde çok sayıda zenginin yaşaması

Ben şahsen kendim 3’ü seçmiştim. Aynı soruyu bazı arkadaşlarıma sorduğumda ise 4 şıkkı da duydum ve hepsinin açıklaması da mantıklıydı. Keza yine aynı şekilde aynı soruyu Twitter’da sorduğumda 13 kişiden sadece 1’i doğru şıkkı seçti ve gel gelelim onun nedenleri de farklıydı.
Peki, doğru cevap ne? Doğru cevap 4. Evet, yanlış duymadınız! Bir şehirde ne kadar çok sayıda zengin varsa fakirlerin de yaşama süreleri o kadar uzun oluyor!

Büyük verilerin bir özelliği de budur, sizi sonuca kestirme olarak çıkartabilir ama neden sorusunu sizin cevaplamanız gerekmektedir. Şu ana kadar neden bir şehirdeki fakirlerin daha uzun yaşamasını sağlayan şeyin o şehirdeki zengin sayısının fazlalığı olduğuna dair net bir cevap verilemedi ancak yine bu zamana kadar en ileride gelen hipotez alışkanlıkların bulaşıcı olma özelliğinden kaynaklandığını söylüyor.

Şöyle ki, zengin insanların daha fazla spor yaptıkları, az sigara ve alkol kullandıkları ve daha çok sağlıklı beslendikleri (protein ağırlıklı), bu zenginlerin yakınında yaşayan yoksullar da daha fazla spor yapıyorlar, daha az sigara içiyorlar ve obez olma ihtimalleri daha düşük.

   Daha işlevsel özellikler

    Peki, büyük verinin insanın gerçekte ne olduğu ve ne yaptığı sorusunu cevaplamaktan ziyade daha işlevsel özellikler yok mu? Tabii ki var. Bunların iki tanesinden bahsetmek istiyorum.

   Trump’ın seçileceği büyük veride saklıydı!

   Yazara göre Trump’ın anketlerde geri gözükmesine rağmen seçileceği bilgisi büyük veride gizliydi. Şöyle ki hepimizin bildiği üzere ırkçılık (neyse ki öyle…) insanlarla paylaşılması zor bir bilgi. Yani, ırkçı bir insan ırkçı olduğunu sosyal medya hesabına yazmaya, arkadaşlarına ve hatta belki ailesine dahi söylemeye çekinebiliyor. İşte burada da Trump’ın asıl seçiliş nedeni yatıyor.

Trump Haberleri - Son Dakika Yeni Trump Gelişmeleri

Bu kısmı direkt olarak yazardan aktarmayı doğru buluyorum; “Obama'nın ilk kez seçildiği gece, yorumların çoğunda Obama övülürken ve seçilmesinin tarihi niteliği vurgulanırken, Google’da yapılan her yüz Obama aramasından kabaca birinde “KKK” (Ku Kulux Klan) ya da “nigger” sözcüğü de aranmıştı. Belki bu oran çok yüksek gelmeyebilir, ama seçimde kazanma şansı düşük olan, güzel bir aileye sahip bu adamın dünyanın en güçlü işini devralmakta olduğu esnada bir Google aramasına konu edilmesinin ırkçılıkla alakası olmayan binlerce nedenini bir düşünün. Seçim gecesindeki aramaların ve ABD’de şaşırtıcı derecede popüler olan beyaz milliyetçisi stormfront web sitesine yeni üyeliklerin sayısı normalin on kat üstündeydi. Bazı eyaletlerde “zenci başkan” araması “ilk siyah başkan”dan daha fazlaydı. Geleneksel kaynaklarda görülmeyen, ama insanların yaptıkları aramalarında bariz şekilde ortaya koyduğu bir karanlık ve nefret söz konusuydu.”

Bu gizli kalan öfke sonucunda yıllar sonra Trump’ın seçileceğinin belli olduğunu iddia ediyor yazar. Başka argümanları da var, daha detaylı bilgiler için kitabını okumanızı tavsiye edebilirim.

  Korana virüsün hangi bölgede artacağı testlerden daha önce tahmin edilebilir!

Evet, geldik yazımızın belki de en heyecanlı yerine. İddia çok büyük. İddiaya göre Google aramaları incelenerek muhtemel vaka artışının nerede olacağı tespit edilebilir. Peki, nasıl?

Covid-19 hastalığının en belirgin semptomlarından biri koku duyusunda kayıptır. Koku alamadığınızı ve bunu fark etmeye başladığınızı düşünün, eğer Google kullanırsanız muhtemelen yapacağınız arama “koku alamıyorum” veya “covid-19 semptomları” tarzından bir şey olacaktır. Evet, yazarın bu yaptığı araştırmanın sonucunda Amerika’da hangi eyaletlerde vaka artışının daha fazla olduğunu testlerden önce tespit ettiğini görüyoruz. Mükemmel! Büyük veri güncel işlerimize de yarıyor!

Yukarıdaki bilgiye yazarın New York Times’daki bir yazısından ulaştım. (Siz de yazıya buradan ulaşabilirsiniz.) ve ardından ben de Türkiye’de denemeye karar verdim. “Korona virüs belirtileri” aramasını Google Trends’ten inceledim. Neyle karşılaşmamı bekliyorsunuz? ANKARA. Evet, 1-2 gün önce sağlık bakanının İstanbul’un iki katı vaka var dediği yer olan, Türkiye’nin Wuhan’ı ilan edilen şehir, Ankara!

Aşağıdaki tablo Türkiye’de “Koku alamıyorum” aramasına son 12 ayda gösterilen ilgi, öncelikle genel duruma bakalım. Pek iç açıcı gözükmüyor.


[SONDAKİ NOKTALI ÇİZGİLER VERİLERİN GOOGLE TRENDS’E İŞLENMEDİĞİNİ SÖYLÜYOR]


Aramanın tavan yaptığı zaman aralıklarına dikkat ediniz. Şu anlık Ankara için verilerde garip bir durum yok. Araştırmaya devam edelim ve son 3 ay için “Korona virüs belirtileri” aramasını inceleyelim.



“Korona virüs belirtileri” aramasının son 90 günde Ankara’da İstanbula’a kıyasla tam 2.5 kat fazla olduğunu görüyoruz! Peki son 7 güne bakarsak işler nasıl gidecek? Bakalım.



Büyük veri uyarıyor! İstanbul’un metropol olmasına rağmen Ankara’da son 3 ayda 2.5 kat, son 1 haftada ise 2,7 kat daha fazla korona virüs araması yapıldığını söylüyor!

Büyük veri yukarıdaki kadar net olmasa da başka bir şekilde de bizi uyarmıştı! Nasıl mı? Şöyle ki, “koku alamıyorum” aramasında son 12 ayda Ankara’nın sırası 9 iken, son 3 ayda 8’e son ayda ise 2 sıra birden atlayarak 6’ya ulaşması, büyük veriyi okumayı bilince “GELİYOR” demekten başka bir şey değildir…


Peki, olanı söyledik. Şimdi sıra olandan güven alarak henüz gerçekleşmeyeni ortaya çıkarmakta. Büyük veriye göre korana virüs için en riskli şehirler nereleri?


“koku alamıyorum” aramasının son 7 günde Google Trends verilerine göre (nüfusa oranı dikkate alınmıştır.) en çok aratıldığı ilk 5 ilimiz.



Özellikle Doğu illerinde internete ulaşımın Batı’ya göre daha az olduğu göz önüne alınırsa, yukarıdaki 5 il beni şahsen çok korkutuyor.

Sonuç

Büyük veriyi okumasını öğrendikçe bazen şaşırıyor, bazen kızıyor bazen de insan doğasının en karanlık dehlizlerine inanıyoruz. Kimi zamansa hemen yukarıda görebileceğiniz gibi hayatımızı çok kolaylaştıran uygulamalarına tanık oluyoruz ve zamanla daha da olacağız.

Diğer iddiaların yanında özellikle korona virüs iddiası büyük bir iddia ve bu işin profesyonelleri tarafından incelenmeli, test edilmeli ve uygun görüldüğü taktirde uygulanmalı. Unutulmamalıdır ki özellikle korona virüs bölümünde %100 netlikte bir iddiam bulunmamaktadır. Ancak sizin de hak vereceğiniz üzere Ankara bir anda Wuhan olmamış, bizlere büyük veri üzerinden “geliyorum” selektörü yapmıştır! Türkiye’nin yeni Wuhanlarını önlemek adına Google verilerinden yararlanılabileceğine inanıyorum.


Konu ilgisini çeken okurlara, Türkçe çevirisinin adı “Bana yalan söylediler” (İngilizcesi ise “Everybody Lies”) adlı Seth Stephens Davidowitz’in kitabını tavsiye ederim. Benim burada söylemeye cesaret edemediğim ve insanın doğasının karanlık taraflarını darmadağın eden birçok örnekle karşılacak ve çok şaşıracaksınız. Ayriyeten yazarın internet ortamında ulaşabileceğiniz yazılarını da tavsiye edebilirim. Yazıyı yazarın araştırmaları ve elde ettiği sonuçlar arttıkça/biriktikçe yeni bir kitap daha yazacağını hatta şu anda yazıyor durumda olduğunu söyleyerek bitirmek isterim. Buraya kadar sıkılmayıp gelebildiyseniz ne mutlu bana. Yorumlarınızı benimle paylaşırsanız çok sevinirim.

Emircan Tepe
Redaktör / 43 Yazı / 192,3K Okunma

Okurum, düşünürüm, sorarım, tartışırım, eleştiririm, yazarım, paylaşırım, otoriteyi sevmem, o da beni sevmez zaten... Ve bittabi herkes gibi gülerim, sevinirim, üzülürüm ve nefret ederim. Sonuç olarak, aranızdan biriyim.


Yorum Yap

E-Posta adresiniz yayınlanmayacaktır.

ya da üye olmadan yorum yap ve onaylanmasını bekle.
ÜST