SAFİR Biyo
Biyoenformatik çalışmalarında (örn. nadir hastalıklar, popülasyon genetiği, vb.) yüksek hacimlerde genetik verilere ilişkin varyasyon dosyalarının kullanılması söz konusudur. Yüksek hacimli genom varyasyonu bilgilerinin aktarımı, bu veri üzerinde varyasyonların aranması, filtrelenmesi, önceliklendirilmesi, genotip ve kalıtımsal özelliklere bağlı kompleks sorguların yapılabilmesi imkanlarının sunulabileceği bir sistem, biyoenformatik araştırmacılarının yüksek miktarda veri üzerinde verimli çalışmasını mümkün kılacaktır. Bu nedenle ölçeklenebilir, dağıtık yapıda ve bellek içi hesaplama yapabilen teknolojiler kullanılarak web tabanlı kullanıcı arayüzüne sahip Safir Biyo platformu geliştirildi. Bu sistem yüksek hacimli genomik varyasyon verilerinin analizinin ve sorgulamalarının kolay ve verimli olarak yapılmasını sağlayan bir platform olduğu gibi makine öğrenmesi ve ileri analitik çalışmaları için de altyapı oluşturmaktadır.
Bir bireyin yaklaşık 3 milyar çift bazdan oluşan tüm genom verisi, ıslak laboratuvar işlemlerinden sonra dizilim kalitesine göre değişkenlik gösterecek biçimde yaklaşık 200 gigabyte büyüklüğüne erişir. İki bireyin genomları %99.9 oranında benzer olduğundan genom araştırmalarında tercih edilen yöntem; bireyin DNA dizisinin kendi türüne ait referans genoma göre hizalanması/dizilmesi (alignment) ve sonrasında da bu referans genomdan farklılıklarının tespit edilmesi şeklindedir. Bu işlemler sonucunda ortaya çıkan baz dizilimi farklılıkları varyasyon dosyalarına (Variant Call File) VCF formatında kaydedilmektedir. VCF dosyaları bir birey için ortalama 125 megabyte uzunluğa ulaşabilmektedir. VCF varyasyonların, genlerin, bireylerin ve yapılan çalışmaya ait etiketlemelerin genel bir formatta saklandığı bir dosyadır.
Safir Biyo, genomik varyasyon dosyalarının büyük veri kapsamında yönetimi ve bu dosyalar üzerindeki analizler için oluşturulan bir veri yönetim platformudur. Safir Biyo, yüksek hacimli genom varyasyonu bilgilerini içeren VCF dosyasının aktarımı, bu veri üzerinde varyasyonların aranması, filtrelenmesi, önceliklendirilmesi, genotip ve kalıtımsal özelliklere bağlı kompleks sorguların yapılabilmesine imkan sağlamaktadır.
Yeni Nesil dizileme ile hızla artan genom verilerinin analizi işlemlerinde araştırmacılar standart uygulamalar ve formatlar olmamasından dolayı zorluklar yaşamaktadırlar. 1000 genom projesi ile birlikte varyasyon verisini içeren VCF dosyalarının yaygın kullanılan bir dosya formatı olduğu kabul edilir. DNA verileri üzerinde geliştirilecek muhtemel bir arama motorunun da temel bileşenleri bu formatta bulunan dosyaların ve verilerin incelenmesi olacaktır. Tek tek veya sınırlı sayıda VCF dosyalarının incelenmesine yönelik çalışmalar literatürde bulunmakla birlikte, yüksek miktarda VCF dosyaların hep birlikte yönetimi üzerinde çalışmalar daha sınırlıdır. Safir Biyo ile yüksek miktar ve hacimdeki genomik varyasyon verileri üzerinde filtreleme ve sorgulama gibi işlemlerin kolaylıkla yapılabilmesi sağlanmaktadır.
Yüksek sayıda bireyin genom verisini içeren büyük ölçekli veri setleri üzerinde popülasyon çalışmaları yapmak için gerekli altyapı her araştırmacının kolaylıkla kurabileceği bir sistem değildir. Son yıllarda özellikle büyük veri teknolojileri genom verileri üzerinde çalışmak için tercih edilmektedir. Dizileme teknolojilerinin ucuzlaması ile kısa sürede toplanan yüksek ölçekli genom verileri ile biyoenformatik araştırmacılarının popülasyon araştırmaları kolaylıkla çalışabilmesini sağlamak önemlidir. Geliştirdiğimiz, kullanımı esnek ve basit arayüzlerle, dağıtık bellek içi hesaplama sistemleri ile çalışan Safir Biyo platformu ile tek bireyin varyasyon analizi (filtreleme, sorgulama vb.) yapabildiği gibi pek çok bireyin varyasyon bilgisi ile popülasyon çalışmaları yapılabilmektedir. Böylece farklı pek çok yazılım aracı kullanılmasından kaynaklanan veri dönüştürme, transfer etme işlemlerine gerek kalmadığı gibi dağıtık dosya sisteminde bulunan veri üzerinde paralel işlem yapabilen altyapılar kullanılabilmektedir.
Literatürde varyasyon dosyalarının analizi için farklı yazılımlar geliştirilmiş ve veri tabanları kullanılmıştır. Ancak büyük veri yazılım araçları ölçeklendirme açısından genomik veriler için çok uygundur. Güncel dağıtık sistemler ile disk yerine bellek içinde çalışan hesaplama altyapıları kullanarak biyoenformatik araştırmacılarının masaüstü bilgisayarlarında yapmaları zor olan veya mümkün olmayan işlemleri çalıştırmalarını sağlamak ileri gen araştırmaları için önemlidir. Geliştirdiğimiz sistem farklı büyüklükteki varyasyon dosyaları üzerinde çalışacak durumdadır. Varyasyon analiz platformumuzun ölçeklemeye uygun altyapısı ve bellek-içi dağıtık hesaplama yapabilen fonksiyonları içeren altyapısı yeni özellikler ve makine öğrenmesi çalışmaları eklemeye oldukça uygundur.