İçindekiler
- Büyük Veri Nedir?
- 3V’den 9V’ye Büyük Veriyi Tanımlama
- Veri Yapıları
- Referanslar
Büyük Veri Nedir?
Büyük Veri’deki “Büyük” ifadesi çok genel olup verinin boyutunu zaman, mekân ve bağlama göre değişken kılar. Örneğin, günümüzün internet trafiği baz alındığında, Büyük Veri’nin hacmi terabayt (TB) ile zettabayt (ZB) arasında değişebilir. Cisco’nun tahminlerine göre, 2015 yılı itibariyle insanlık ZB çağına girmiştir.
Büyük Veri tanımında verilerin üç ana özelliği vurgulanır:
- Hacim (Volume),
- Hız (Velocity) ve
- Çeşitlilik (Variety), yani 3V tanımıdır.
Ancak, bu yaklaşım günümüzün genişleyen veri düzeyini yeterince açıklamaz. Bu nedenle, 4V, 6V ve hatta 9V gibi daha geniş tanımlar geliştirilmiştir. Örneğin, 4V tanımında Doğruluk (Veracity), 6V tanımında ise Değişkenlik (Variability) ve Değer (Value) eklenmiştir. Daha kapsamlı tanımlarda ise Görünürlük (Visibility) ve Güvenlik (Vulnerability) gibi ek özellikler ilave edilmiştir. Bu ek özellikler, Büyük Veri analizinin amacını daha net ortaya koyar ve Büyük Veri analizinin hangi problemlere çözüm üretebileceği, hangi problemlerin ise değerlendirilmemesi gerektiği sorularına yanıt verir.
Büyük Veri analizi ve işleme yöntemleri arasında büyük ölçekli paralel işleme (MPP- Massively Parallel Processing), bellek içi veri tabanları, MapReduce işleme modeli ve toplu senkron paralel (BSP- Bulk Synchronous Parallel) sistemler yer alır.
3V'den 9V'ye Büyük Veriyi Tanımlama
Büyük Veri Analizinin (BDA- Big Data Analytics) temel amacı, iş zekası (BI-Business Intelligence) elde etmektir. Bu analiz, karar vericilerin mevcut veriler üzerinden doğru tahminler yaparak sağlıklı kararlar almasını sağlar. Bu doğrultuda, Büyük Veri’nin özelliklerini ve bu özelliklerin üç ana alanla olan ilişkisini kurabilmemiz gerekmektedir.
- Veri Alanı (Data Domain):
Veri alanında Hacim (Volume), en önemli özellik olarak öne çıkar. Verinin boyutu, genellikle mevcut işleme kapasitemizi aşar ve BDA’daki en kritik faktördür. Hız (Velocity) ve Çeşitlilik (Variety) ise hacimle kıyaslandığında daha az değişiklik gösterir.
- İş Zekası Alanı (Business Intelligence Domain):
İş zekası alanında öne çıkan özellikler Değer (Value), Görünürlük (Visibility) ve Karar (Verdict) şeklindedir. Bu özellikler, BDA’nın uygulanmasındaki temel motivasyonlardır. Görünürlük, veriden içgörü sağlamanın ötesinde, meta veriler ve soyut veri örüntüleriyle ilgilenir. Değer, verilerin iş ihtiyaçları için faydalı olup olmadığını sorgular. Karar ise, problem kapsamına ve kaynaklara göre alınması gereken stratejik bir seçimdir.
- İstatistiksel Alan (Statistical Domain):
İstatistiksel alanda öne çıkan özellikler Doğruluk (Veracity), Geçerlilik (Validity) ve Değişkenlik (Variability) şeklindedir. Doğruluk, verilerin güvenilirliğini ve belirsizliklerin giderilmesini ifade eder. Geçerlilik, verilerin mantıksal olarak tutarlı olup olmadığını ve önyargılardan arındırılmasını kontrol eder. Değişkenlik ise verinin karmaşıklığını ve çeşitliliğini ele alır, bu da istatistiksel modellerin doğruluğu açısından kritik bir faktördür.
Veri Yapıları
Büyük Veri, farklı yapılarda bulunabilir ve bu yapıların başlıca kategorileri şunlardır:
- Yapılandırılmış Veri (Structured): Genellikle ilişkisel veritabanlarında depolanan, tablo formatında düzenlenmiş verilerden oluşur.
- Yarı Yapılandırılmış Veri (Semi-Structured): JSON veya XML formatında olan ve belirli bir yapıya sahip olan verilerdir.
- Yapılandırılmamış Veri (Unstructured): Metin, görüntü ve video gibi organize edilmemiş verilerden oluşur ve bu tür veriler genellikle büyük analiz zorlukları doğurur.
- Kısmen Yapılandırılmış Veri (Quasi-Structured): Yapılandırılmış ve yapılandırılmamış veri arasında kalan, kısmen organize edilmiş verilerdir.
Gelecekte veri büyümesinin büyük ölçüde yapılandırılmamış veri türlerinden gelmesi beklenmektedir. Örneğin, çağrı merkezi verileri gibi yapılandırılmış verilerin yanı sıra, metin dosyaları ve ses kayıtları gibi yapılandırılmamış veriler de analiz edilmektedir. Bu farklı veri türlerinin işlenmesi için özel araçlar ve teknikler gereklidir.
Dağıtık Sistemler ve MPP
Yapılandırılmamış ve yarı yapılandırılmış verilerin işlenmesi, dağıtık sistemler ve devasa paralel işleme (MPP) mimarileri kullanılarak gerçekleştirilir. Bu mimariler, büyük miktardaki veriyi paralel olarak işleyerek analiz sürecini hızlandırır ve verimliliği artırır
Referanslar
- Kocaeli Ünivesitesi Öğr. Üyesi FİDAN KAYA GÜLAĞIZ
- Kocaeli Üniversitesi Asst. Prof. FURKAN GÖZ
- Big data: principles and paradigms. Buyya, Rajkumar, Rodrigo N. Calheiros, and Amir Vahid Dastjerdi, eds. Morgan Kaufmann, 2016.
- Data science and big data analytics: discovering, analyzing, visualizing and presenting data. Wiley, 2015.
