TÜİK Büyük Veri İleri Analitik Projesi ile, Türkiye Cumhuriyeti Hazine ve Maliye Bakanlığı Türkiye İstatistik Kurumu (TÜİK) bünyesinde, internet sitelerinden  toplanan, kategori ve alt kategori bilgisi ile etiketlenmiş günlük fiyat bilgisinin ve iş ilanlarının yığın ve akan veri olarak büyük veri ekosisteminde depolanması, işlenmesi ve analiz edilmesini sağlayan sistemin tasarlanması amaçlanmaktadır. Sistem sayesinde, iş ilanlarından pozisyon ve yetenek sınıflandırması yapılması, sonuçların görselleştirilmesi, uçak-otobüs-paket tur fiyatları için fiyat takibinin sağlanması ve lag analizinin yapılması mümkün olacaktır.

İnternet sitelerinden toplanan verilerin akan veri biçiminde büyük veri ortamına aktarılması ve aktarılan verilerin yığın ve akan veri olarak analiz edilmesini sağlamak amacıyla Lambda mimarisi kullanılmaktadır.  Sistem mimarisi, büyük veri ekosistemindeki açık kaynak araçlar ve Bulut Bilişim ve Büyük Veri Araştırma Laboratuvarı (B3LAB) Veri Kalitesi Aracı (B3DataQuality) kullanılarak geliştirilmektedir (Şekil 1). Sistem geliştirme aşamasında, küçük ölçekli demo kurulum TÜBİTAK BİLGEM Gebze Yerleşkesi’nde bulunan B3LAB Prototip Veri Merkezi’nde yapılmaktadır.

Şekil 1 - Sistem mimarisi

 

Proje kapsamında, büyük veri ortamındaki yığın veri işleme altyapısında yığın veriler kullanılarak makine öğrenmesi ve derin öğrenme yöntemleri ile iş ilanı pozisyon ve yetenek sınıflandırma modelleri ve lag analizi modelleri oluşturulacaktır. Akan verinin makine öğrenmesi modelleri kullanılarak işlenmesi ile elde edilecek sonuçlar büyük veri ortamına uyumlu iş zekası aracında görselleştirilecektir.