Veri Ve Büyük Veri Nedir?
Büyük veri toplumsal medya paylaşımları, ağ günlükleri, bloglar, fotoğraf, video, log dosyaları gibi değişik kaynaklardan toparlanan yapısal olan ve ya olmayan tüm verinin anlamlı ve işlenebilir biçime dönüştürülmüş biçimine denir.
Günümüze kadar gelen süre içerisinde bilgi kavramı sürekli artmış son yıllarda büyük artış göstererek bugün içinde bulunduğumuz veri ortamı sağlanmıştır.
Veri Nedir?
Veri kavramı son yıllarda büyük önem göstermiş ve değeri de her zaman artmıştır. Artmaya devam eden bu veri kavramı miktarı ve çeşitliliği ile hayatımızda önemli bir yer edinmiştir. İşte verinin miktar ve çeşitlilik kavramı açısından katlanarak artması Büyük veri kavramını da beraberinde getirmiştir.
Büyük Veri
Büyük veri toplumsal medya paylaşımları, ağ günlükleri, bloglar, fotoğraf, video, log dosyaları gibi değişik kaynaklardan toparlanan yapısal olan ve ya olmayan tüm verinin anlamlı ve işlenebilir biçime dönüştürülmüş biçimine denir. Son birkaç yıl içerisinde bilgi ve iletişim teknolojilerinde çok büyük atılımlar yapılarak mobilitenin hızla artması ile internetin kullanımı da büyük kitlelerde daha da yaygınlaşmış ve iletilen bilgi türü de çeşitlenmiştir.
Ses, görüntü, grafik ve metin tabanlı her türlü yapısal olan ve yapısal olmayan veri ciddi bir şekilde ivmesel olarak artmıştır. Ayrıca büyük veri, verilerin ekonomik ve ölçeklenebilir bir biçimde ve ilişkisel veri tabanı tekniklerinin yetmediği noktalarda kullanılabilir ve anlamlandırılabilir kılınması kavramıdır. Mevcut ilişkisel veritabanları ile kolaylıkla yönetilemeyecek büyüklükte olup büyümeye sürekli devam eden veriler bütününe Büyük veri diyebiliriz.
Büyük Verinin Oluşumu
Büyük verinin oluşumu sadece son birkaç yılda artan veri miktarına bağlı değildir.20.yüzyılın başından itibaren kademe kademe artış göstermiştir. Büyük verinin işlenmesi, anlamlandırılması ve kullanılabilmesi için bileşenlerinin modelleme kapsamında ayrıştırılması gerekir. Bileşenlerine baktığımızda veri büyüklüğü, hız, çeşitlilik kavramları ön plana çıkmaktadır.
IDC dijital kayıtlarına bakıldığında halihazırda 1.2 zettabayt veri kaydı bulunduğu ve bu rakamın önümüzdeki 10 sene içinde 44 katına ulaşılacağı söylenmekte. Bu bile büyük verinin önemini ortaya sürmektedir. Beklentiler bu yönde iken kurumların, işletmelerin veri arşivleme, işleme, bütünleştirme, saklama vb konularda ivedilikle plan yapmaları gerekmektedir.
Büyük verinin üretilme hızı çok yüksektir ve gün geçtikçe de artmaktadır. Daha hızlı üreyen veri o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır. Telefonlardan, tabletlerden ve ya bütünleşik devrelerden gelen sosyal medya sensör verileri, CRM dosyaları, dokumanlar, imajlar, videolar, e-postalar gibi akla gelebilecek bütün veriler veri kaynak tipleri ,her türlü çeşitlilikte veri tipi ile uğraşılması gerekmektedir. Bu kadar bilgi yoğunluğunun içerisinde verinin akışı sırasında güvenli olması da diğer bileşenlerden biri sayılır. Akış sırasında güvenlik seviyesinin izlenmesi gerekmektedir. Aksi takdirde veriye herkes ulaşabilir gizli kalması prensibine uymaz.
İşletmelerin amaçlarını gerçekleştirebilmesi en önemlisi de gelir artışını ilerletebilmesi ve bunları sürekli hale getirebilmesi için Büyük verinin işlenmesi anlamlandırılması ve doğru kullanılabilmesi son derece önemlidir. Bunun için gerekli olan birtakım teknolojileri ele alırsak bunlar lisanslandırma ve ücretlendirme bakımından farklılık göstermektedir.
Veri Tabanları
Verilerin tablolarda satır ve sütunlar halinde tutulduğu ve yüksek bir veri tutarlılığına sahip veri depolama sistemlerine ilişkisel veri tabanı yönetim sistemi adı verilmektedir. Çeşitli tablolar arasında organize edilmiş verilerden oluşan veri tabanı olarak da adlandırılmaktadır. Bazı veri tabanlarını inceleyecek olursak mysql, postgresql, hadoop, mapreduce, nosql, mongodb vb. veri tabanları örnek verilebilir.
Mysql altı milyondan fazla sistemde yüklü ulunan çoklu iş parçacıklı, çok kullanıcılı, hızlı ve sağlam bir veri tabanı yönetim sistemidir. Ücretsizdir. Ticari lisans olarak kullanmak isteyenler için ücretli lisansı da mevcut. Mysql geliştiricileri 500’den fazlası 7 milyon üzeri kayıt içeren ve 10 bin adet tablodan oluşan kendi veri tabanlarını Mysqlde tuttuklarını ifade etmektedirler. Bir çok programlama dili ile beraber çalışmaktadır.
Hadoop tasarımı gereği tekil bir sunucunun yanı sıra her birinin kendi CPU ve hafıza birimi bulunan binlerce sunucuyu barındıran bir küme(cluster) üzerinde de çalışabilir ve çok hızlı büyüyebilir. Hadoop’ın özellikle büyük hacimli verilerin işlenmesinde ekonomik değerleri ve dinamikleri kökten değiştirebileceği iddia edilmektedir.
Hadoop’un aşağıda yer alan dört temel özelliği ile çeşitli ihtiyaçlar için sistem mimarisi tasarlanırken kullanıcılar tarafından oluşturuluş, ölçeklenebilirlik, süreklilik, hatadan kurtarma, paralel işlem yetenekleri, fiyat/performans esnek tasarım gibi parametrelerin hepsinin aynı anda gerçekleşmesini sağlayacağı öne sürülmektedir. Bu 4 özellik şöyle sıralanabilir. Ölçeklenebilirlik, hesaplı çözüm, esneklik ve hatadan kurtarma.
Dağınık Hadoop Dosya Sistemi
Türkçeye “Dağınık Hadoop Dosya Sistemi” olarak çevrilen HDFS sistemi büyük veriye yüksek iş/zaman oranı ile erişim sağlayan Dağıtık Dosya Yönetim Sistemidir. Bu sistem birçok makinedeki dosya sistemlerini birbiriyle bağlayarak tek bir dosya sistemi gibi gözükmesini sağlar. HDFS, düğüm noktalarının her zaman yüzde yüz çalışamayacağını, kesintiler olabileceğini baştan kabul ederek veri güvenliğini verinin birden fazla düğüm noktasına kopyalayarak sağlar. HDFS sayesinde sıran sunucuların diskleri bir araya gelerek büyük tek bir sanal disk oluşturmaktadırlar. Bu sayede çok büyük boyutta birçok dosya bu dosya sisteminde saklanabilir. HDFS sistemin namenode ve datanode processlerinden oluşmuştur.
Büyük verinin kullanım alanlarına baktığımızda hastaneler, ilaç sanayi, fizik, kimya simülasyonları gibi bilim alanında kullanıldığı görülür. Ayrıca hükümetlerin yurttaşlarına bilgi vermek amacıyla kullandığı altyapı da büyük veri alanına girer. Bunların dışında özel sektörde (bankalar, enerji firmaları gibi) büyük veri fazlaca kullanılmaktadır.
Geleceğin Teknolojisi
Yakın geleceğin en önemli teknoloji piyasasının büyük veri üzerinde oluşması önümüzdeki 5 yıl içerisinde pazarın büyük veri etrafında toplanması tahmin edilmektedir. Büyük veri çok yüksek frekanstaki bilgiyi daha kullanışlı hale getirerek, işletmelerin müşterilerine ulaşması ve müşterilerini sürekli kılması konusunda daha derinlemesine kararlar almasını sağlayacaktır. Yakın vadede büyük veri kavramının M2M(machine to machine) sosyal medya analizi gibi içerik ve karakteristik olarak farklılık gösteren daha özelleşmiş alt kollara göre ele alınacağı öngörülmektedir.
Teknolojik yatırımlar konusunda öncü olan telekomünikasyon, finans, bankacılık ve hızlı tüketim gibi sektörlerde faaliyet gösteren firmalar dışında özellikle M2M bilgileri analiz etmek isteyecek üretim sektörü firmaları elektrik, su ve doğalgaz gibi hizmet dağıtım firmaları için de büyük veri analizi büyük önem taşıyacaktır.
Yazar: Sercan Bedir