Büyük Veri Nedir, Özellikleri Nelerdir?

Çeşitli kaynaklardan elde edilen verinin analiz edilebilmesi, işlenmesi, aktarılması için klasik yöntem, araç ve altyapıların kullanılamaması durumunda Büyük Veri kavramından bahsedilebilir. Verinin büyük olabilmesi için 5V (Volume, Velocity, Variety, Value, Veracity) olarak adlandırılan bileşenlerden bir veya daha fazlasına sahip olması gerekir.

Hacim (Volume): Hacim, veri boyutu ile doğrudan ilgilidir. Hacim olarak kast edilen sadece verinin bayt cinsinden büyüklüğü değildir. Eldeki veri istenilen zamanda analiz edilemiyorsa büyük veri bileşeni olarak hacimden bahsedilebilir.

Hız (Velocity): Sosyal medya, telefon, sensörler vb. tarafından çok hızlı bir şekilde veri üretilebilmektedir. Üretilen verinin gerçek zamanlı işlenmesi ve analiz edilmesi gerektiğinde büyük veri bileşeni olarak hız karşımıza çıkmaktadır.

Çeşitlilik (Variety): Çok farklı türde verinin bir arada kullanılmasını gerektiren veri analizi işlemlerinde çeşitlilik büyük veri bileşeni olarak yer almaktadır.

Doğruluk (Veracity): Verinin doğruluğu, analiz sonucunu etkileyen önemli bir bileşendir. Gürültü içeren veriler üzerinde analiz çalışması gerçekleştirildiğinde verinin doğru olduğundan emin olmak gerekmektedir.

Değer (Value): Verinin değere dönüşmesi analiz işleminin temel amacıdır. Büyük veriyi tanımlayan özellikler arasında en önemli olanıdır.

Veri Biliminde Analitik Türleri

Büyük miktarda veri akışını kullanarak karar vermek isteyen kurumlar, bu veri üzerinde analitik çözümler oluşturarak anlam çıkarmaya çalışmaktadır. Kullanılabilecek analitik çözümler dört farklı başlıkta değerlendirilebilir.

Tanımlayıcı (Descriptive) Analitik: “Ne oldu?” sorusuna cevap aranır. Ham veri kullanılarak geçmişe dönük fikir verir ancak sebepler konusunda bilgi vermez. İş zekası uygulamaları ve gösterge panoları gibi araçlar ile bu tip analiz gerçekleştirilmektedir.

Tanısal (Diagnostic) Analitik: “Neden oldu?” sorusuna cevap aranır. Geçmiş veriler kullanılarak sonuçların kök nedeni hakkında fikir verir.

Öngörücü (Predictive) Analitik: Gelecekteki bir sonucun öngörülmesi ve olasılığının tahmin edilmesi için “Ne olacak?” sorusuna cevap aranır.

Reçeteli (Prescriptive) Analitik: “Olmasını nasıl sağlarım?” sorusuna cevap aranır. Aksiyonlar alınmadan önce etkilerini tahmin ederek istenen sonucun nasıl elde edilebileceği konusunda bilgi verir.

Büyük Veri ve İleri Analitik Kullanım Senaryosu Örnekleri

360° Müşteri Görünümü: Büyük veri çözümleri kullanılarak, geçmiş çevrimiçi ve çevrimdışı etkileşimler, sosyal medya verisi ve satın alma geçmişi gibi veriler birleştirilerek 360 derecelik bir müşteri görünümü elde edilebilmektedir.

Kişiselleştirilmiş Bir Kullanıcı Deneyimi Sunulması: Geleneksel e-ticaret deneyiminden farklı olarak müşterilerin ilgilendikleri ürünlerin takip edilmesi ve kullanıcıya bu ürünleri içeren kişiselleştirilmiş öneriler sunulması mümkün hale gelmektedir.

Öneri Motorları: Öneri motorları, her bir müşteri için uygun teklifleri sağlamak için uygulanan algoritmalardır. Örnekler arasında bir e-ticaret sitesinden alışveriş yapılırken müşterinin ilgisini çekebilecek veya benzer ürünlerin sunulması sayılabilir.

Fiyat Optimizasyonu: İşletmeden tüketiciye ve işletmeden işletmeye ticarette, büyük veri analizleri sayesinde rakiplerin ürünlerini nasıl fiyatlandırdıklarını kontrol etme yeteneği ve geçmiş veriye bakarak en iyi sonuç alınan fiyatlandırmanın belirlenmesi mümkün hale gelmektedir.

Trendlerin Tahmin Edilmesi: Büyük veri stratejisi ile, pazardaki trendler ve bir sonraki çok satacak ürünler tahmin edilebilmektedir. Sosyal medya yayınlarından ve kullanıcı internet tarama alışkanlıklarından gelen veriler birleştirilebilmekte; duyarlılık analizi (sentiment analysis) ile bir ürün hakkında yorumların olumlu olup olmadığı tespit edilebilmektedir.

Sahtekarlık Önleme: Büyük veri analitiği ve makine öğrenmesi ile sahtekarlık önleme konusunda daha sofistike sistemler geliştirilebilmektedir. Büyük veri analitikleri ile sahtekarlığın belli coğrafi bölgelerde (örneğin havaalanları) toplanması gibi değişen trendler hızla belirlenebilmektedir.

Veri Ambarı Yükünün Azaltılması: Birçok işletme Hadoop gibi açık kaynak büyük veri çözümleri ile veri ambarlarını değiştirmekte veya tamamlamaktadır. Hadoop tabanlı çözümler, lisans ücretlerini ve diğer maliyetleri düşürürken daha hızlı performans sağlayabilmektedir.

Günlük (Log) Verisi Analizi: Ticari faaliyetlerin ve işlemlerin katlanarak büyümesi ile ortaya çıkan günlük (log) verilerinin en verimli ve uygun maliyetli bir şekilde depolanması, işlenmesi ve sunulması ihtiyacı  büyük veri çözümleri ile karşılanmaktadır.

Önleyici Bakım (Preventive Maintenance): İmalat, enerji, inşaat, tarım, ulaştırma ve benzeri sektörlerdeki işletmeler; ekipman bakımını geliştirmek için büyük veri ve endüstriyel nesnelerin interneti teknolojilerinden faydalanabilmektedir. Büyük veri çözümleri ile verilerin gerçek zamanlı olarak analiz edilmesi ve bir sorunun ne zaman çıkacağının tahmin edilmesi sayesinde olası kaza ve maliyetli hat kapatmalarının önlenmesi mümkün hale gelmektedir.

Nesnelerin İnterneti (Internet of Things): Tüm sektörlerde veri toplamak ve aksiyon almak üzere içgörüler elde etmek için nesnelerin interneti ve büyük veri teknolojilerinden faydalanılabilmektedir. Örnekler arasında ürün hareketlerinin, hava durumunun ve güvenlik kamera görüntülerinin izlenmesi sayılabilir.

SAFİR Büyük Veri Altyapısı

Bulut Bilişim ve Büyük Veri Araştırma Laboratuvarı (B3LAB) “Büyük Veri Analiz Çözümleri” ile farklı formlardaki ve büyük miktardaki veri işlenip analiz edilerek kıymetlendirilmiş bilgi çıkarılabilmektedir. SAFİR Büyük Veri; kurulumu ve kullanımı kolay büyük veri depolama, veri aktarımı ve analitiği çözümleri sunmaktadır. B3LAB Prototip Veri Merkezi içinde yer alan sunucular üzerine yapılan kurulum ile fiziksel olarak; SAFİR Altyapı üzerinde bulunan servisler ile sanal olarak büyük veri altyapısı kullanılabilmektedir. Her iki kurulum da ölçeklenebilir, yüksek erişilebilirlik konfirürasyonu yapılmış, dağıtık ve yedekli donanıma sahip altyapı ile yığın ve akan verinin işlenebilmesine olanak sağlamaktadır.

SAFİR Büyük Veri; büyük veri mimarisi, veri aktarımı ve işlenmesi, büyük veri analitiği, büyük veri ekosistem eğitimi, kavram ispatı (PoC) uygulamaları kapsamında çözüm sunmaktadır.

Büyük veri mimari çözümleri kapsamında Hadoop kümesi kurulumu, konfigürasyonu, yönetimi ve optimizasyonu; kullanılan işletim sistemi konfigürasyonu ve optimizasyonu; büyük veri dosya sistemleri konfigürasyonu ve optimizasyonu; büyük veri ağ mimarisi tasarımı ve kurulumu çalışmaları gerçekleştirilmektedir.

Veri akışı ve işleme çözümleri kapsamında; akan veri yönetimi ve işlenmesi, yığın veri aktarımı, yönetimi ve işlenmesi, NoSQL veritabanları kurulum ve konfigürasyonu ile optimizasyonu gerçekleştirilmektedir.

Büyük veri analitik çözümleri kapsamında anomali tespiti, tahminleme, sınıflandırma ve kümeleme analizleri gerçekleştirilmektedir.

Büyük veri teknolojileri, büyük veri analitiği, makine öğrenmesi konularında eğitim verilmektedir. Eğitimler sanal büyük veri ortamında hazırlanan kümeler üzerinde uygulama çalışmaları ile desteklenmektedir.

SAFİR Büyük Veri altyapısı kullanılarak; veri merkezi izleme ve sunucu yüklerinin tahminlenmesi, çağrı merkezi kayıtlarına otomatik kategori atanması, genomik varyasyon analizi platformu oluşturulması, öğrencilere yönelik sınav başarısızlığı kök neden analizi, verinin büyüme hızı ve yapısı hakkında alınan bilgiler ile büyük veri altyapı ve araçları ihtiyaç analizi çalışmaları gerçekleştirilmiştir.

 

SAFİR Büyük Veri Projeleri  

Türk Gümrükleri İçin Büyük Veri Analitiği ve İş Zekası Aracı Geliştirme Projesi (Project of Data Governance Tool Development for Turkish Customs): Türkiye Gümrük Bölgesi’nin tamamında Ticaret Bakanlığı’nın gümrük gözetim ve kontrol fonksiyonunu, idari, teknik ve operasyonel kapasitesini artırarak ve Gümrük İdaresi Koordinasyon Merkezinin (CECC) yapısını geliştirerek güçlendirmek için büyük veri ve makine öğrenmesi tekniklerinin kullanıldığı bir veri yönetim projesidir.

Gümrüklerde Kaçakçılığı Önlemeye Yönelik X-Ray Görüntülerinin Analizi Projesi: Türkiye Gümrük Bölgelerinde kaçakçılığı önlemeye yönelik olarak yer alan X-Ray cihazları ile elde edilen görüntünün işlenmesi ile otomatik olarak anomali ve kaçakçılığın belirlenmesi ve X-Ray verilerinin tek bir merkezde toplanarak incelenebilmesini amaçlayan bir projedir.

TÜİK Büyük Veri İleri Analitik Projesi: İnternet siteleri ve diğer kaynaklarla farklı mağazalardan sağlanan kategori ve alt kategori bilgisi ile etiketlenmiş günlük fiyat bilgisinin  ve iş ilanlarının yığın ve  akan veri olarak büyük veri ekosisteminde depolanması, işlenmesi ve analiz edilmesini  sağlayan sistemin tasarlanması amaçlanmaktadır.

Milli Eğitim Bakanlığı (MEB) TEOG Veri Analizi: TEOG sınavında yerleşemeyen öğrencilerle ilgili olarak MEB tarafından sağlanan veri üzerinde analizler gerçekleştirilmiştir. Veriler arasındaki ilişkileri bulmak için Spark ve Spark MLlib çözümleri uygulanmıştır.

SAFİR Biyo - B3LAB Varyasyon Analizi Platformu: Biyoenformatik çalışmalarında (örn. nadir hastalıklar, popülasyon genetiği, vb.) yüksek hacimlerde genetik verilere ilişkin varyasyon dosyalarının kullanılması söz konusudur. Yüksek hacimli genom varyasyonu bilgilerinin aktarımı, bu veri üzerinde varyasyonların aranması, filtrelenmesi, önceliklendirilmesi, genotip ve kalıtımsal özelliklere bağlı kompleks sorguların yapılabilmesi imkanlarının sunulabileceği bir sistem biyoenformatik araştırmacılarının yüksek miktarda veri üzerinde verimli çalışmasını mümkün kılacaktır. Bu nedenle ölçeklenebilir, dağıtık yapıda ve bellek içi hesaplama yapabilen teknolojiler kullanılarak bir platform geliştirilmesi amaçlanmıştır. Platform üzerinde gen verileri kullanılarak varyasyon analizi, ilaç-etken madde analizi ve gen mühendisliği veri bilimi ihtiyaçları karşılanabilmektedir.

Veri Merkezi İzleme ve Sunucu Yüklerinin Tahminlenmesi : İki farklı veri merkezindeki sunucular tarafından üretilen veri, Safir Büyük Veri altyapısına aktarılmış ve üzerinde analiz çalışmaları gerçekleştirilmiştir. Sunucu verilerinin akan veri biçiminde büyük veri ortamına aktarılması ve aktarılan verilerin durağan ve akan veri olarak analiz edilmesini sağlamak amacıyla Lambda mimarisi kullanılmıştır. Yığın olarak depolanan sunucu verileri kullanılarak makine öğrenmesi modeli oluşturulmuştur. Oluşturulan model kullanılarak akan veri şeklinde gelen sunucu verilerinin bir sonraki adımdaki değerlerinin tahminlemesi yapılmıştır.

Büyük Veri Altyapı ve Araçları İhtiyaç Analizi: Geleneksel yöntemlerle ilişkisel veri tabanı yönetim sistemleri üzerinde saklanan ve büyüme hızı, sorgu süresi gibi metrikleri bilinen veri için büyük veri altyapısı ve araçlarına duyulacak ihtiyaç konusunda rapor hazırlanmıştır. Sentetik veri üretilerek aylık olarak verinin artışı simüle edilmiş, ilişkisel veritabanı yönetim sistemi, NoSQL veritabanı, büyük veri altyapı araçları (Spark, Hive) ile sorgu performansı ölçülmüştür.