Özet:
Gen analizi biyoinformatiğin en önemli çalışma alanlarından birisi olup gen kümeleme işlemi, gen analizinin en kritik adımlarından birisidir. Gen kümeleme işlemi için literatürde en sık kullanılan veri tipi gen ekspresyonu verisidir. Bununla beraber literatürde çok daha az sayıda da olsa, gen kümelemesi için birbirini tamamlayıcı nitelikteki farklı genomik veri tiplerinin birarada kullanılmasını öneren, bu yol ile tek bir genomik veri tipi kullanılması durumunda elde edilemeyecek yeni ve anlamlı gen kümeleri elde edilebileceğini savunan çalışmalar da mevcuttur. Söz konusu çalışmalardan birisi Kasturi ve diğerleri (2005) tarafından sunulan ve gen ekspresyonu ile motif sıklık verilerinin gen kümelemesi için birarada kullanılmasını öneren çalışmadır.Bu tez çalışması kapsamında Kasturi ve diğerleri (2005) tarafından sunulan ve temelleri özdüzenleyici haritalara dayanan gen kümeleme algoritması, üçüncü bir genomik veri tipini de gen kümelemesi işleminde kullanabilecek şekilde genişletilmiştir. Bu amacı gerçekleştirmek için seçilen üçüncü genomik veri tipi gen konum verisidir. Söz konusu algoritma her veri tipi için farklı ve en uygun uzaklık fonksiyonunun kullanımına izin vermektedir. Bu çalışma kapsamında üçüncü veri tipi olarak ele alınan ve algoritmaya eklenen gen konum verisi ile birlikte kullanılmak üzere GLDist adı verilen yeni bir uzaklık fonksiyonu geliştirilmiş ve kullanılmıştır.Geliştirilen yöntemin başarımını sınamak için 100 adet Arabidopsis geninden oluşan bir test veri seti oluşturulmuştur. Yöntem ile elde edilen yeni gen kümelerinin biyolojik anlamlılığını değerlendirebilmek için Gen Ontolojisi ve TAIR veritabanlarından faydalanılarak söz konusu genlere ait moleküler fonksiyon ve biyolojik proses bilgileri elde edilmiş ve bu bilgiler ışığında aynı kümede yer alan genler arasındaki biyolojik benzerlikler incelenmiştir. Elde edilen sonuçların biyolojik değerlendirmesi, geliştirilen yöntemin kullanılması ile yeni ve biyolojik olarak anlamlı gen kümelerinin elde edilebileceğini göstermiştir.