Abstract:
Yüksek boyutlu veri uzayında sıklıkla rastlanan problemlerden biri “curse of dimensionality” denilen çok boyutluluk karmaşasıdır. Veri uzayındaki boyutluluğun artarak çok büyük rakamlara ulaşması yalnızca veri seti karmaşıklığına değil aynı zamanda hedef sınıf ile ilişkilendirilen özniteliklerden bilgi taşımayanların da sayısının artmasına yol açmaktadır. Bu durum, öğrenme aşamasında ilgisiz ve/veya gereksiz birçok özelliğinde söz konusu olduğu anlamına gelmektedir. Bu noktada, öznitelik seçiminin önemi ortaya çıkmaktadır.
Öznitelik seçimi, en iyi doğruluk tahmini için orjinal öznitelik setinden minimum alt küme seçimi problemidir. Öznitelik seçim algoritmalarının çok büyük bir bölümü, birçok farklı alan uygulamaları için elde edilen sınıflandırıcı doğruluğunun iyileştirilmesi için geliştirilip etkileyiciliğini kanıtlama yoluna gitmişlerdir. Öznitelik seçim algoritmaları tarafından gereksiz özniteliklerin minimize edilmesi ve sınıflandırıcı için seçilen öznitelikler arasındaki ilişkililiğinin maksimize edilmesi sağlanmaya çalışılmaktadır. Öznitelik altküme seçimi, ilgisiz ve/veya gereksiz bilgilerin tanımlanmasını ve ardından kaldırılmasını olabildiğince etkin bir şekilde yerine getirmelidir. “Nitelikli öznitelik altküme” seçimi, sınıflandırıcı ile yüksek ilişkili öznitelikleri ve sınıflandırıcının olmadığı durumda ise birbiri ile gereksiz olmayan öznitelikleri içermelidir.
Öznitelik seçimi içerisinde ihmal edilen konu, seçilen öznitelik alt gruplarının kararsızlık probleminin çözüme kavuşmasının sağlanmasıdır. Bu problem bilgi keşfinin yüksek boyutlu 2 veri uzayından elde edilmesi sürecinde önem kazanmaktadır. Bilgi keşfinin amacı, binlerce öznitelik uzayına sahip örneklem alt kümeleri ile sınıfları arasındaki en iyi farkı ifade edebilecek özniteliklerin tanımının yapılabilmesini sağlamaktır. Örneğin, biyoloji alanındaki uygulamalarda (Mikrodizi, kütle spektrometresi), alan uzmanlarının temel amacı, özgün örneklerden hastalık teşhisi veya fenotiplerin tahmini için model yaratmak yerine yüksek çıktılı deneylerden işaretçi genlerin veya proteinlerin saptanmasını sağlamaktır. Birçok öznitelik seçim algoritması, öznitelik alt küme seçiminde elverişli olmasına rağmen, yüksek maliyetli biyolojik deneylerin doğrulanması için güvenilir aday öznitelik tanımlamalarını gerçekleştirme konusunda yetersizdir. Güvenilir aday öznitelik tanımlamaları için, rağbet gören seçeneklerden biri, en iyi sınıflandırıcı doğruluğunu elde ederek biyolojik deneylerin doğrulanmasını sağlamaktır. Bu duruma karşın, aynı verinin farklı öznitelik alt kümeleri sınıflandırıcı doğruluğu sonuçlarında oldukça benzer hatta aynı olabilmektedir. Öznitelik alt kümelerinin çok yüksek rakamlarda olması ve söz konusu öznitelik alt kümeleri arasındaki uyumsuzluk öznitelik seçim algoritmalarının kararsızlığını gün yüzüne çıkarmaktadır. Sonuç olarak, alan uzmanlarının tek bir öznitelik alt kümesi ile güvenilir bir araştırma yapmaları pek mümkün değildir.
Bu nedenle tez çalışması kapsamında, bağışıklığın kazanımında rol alan hafıza hücreleri kullanılarak, kararlı öznitelik seçimleri için ideal bir alt yapının oluşturulması sağlanmıştır. Yapay Bağışıklık Tanıma Sistemleri içerisinde ilişkisel immün hafıza gelişimini sağlayacak ve bir uzun sekans öğrenimini gerçekleştirecek bir tür içsel yeniden uyarım mekanizması sisteme adapte edilmiştir. Tekrarlayan Sinir Ağları türlerinden Uzun-Kısa-Süreli Hafıza (LSTM) modeli bir tür içsel yeniden uyarım mekanizması olarak kullanılmıştır. Sezgisel olarak, bir LSTM birimi erken aşamada bir sekans girdisinde önemli bir öznitelik tespit ederse, bu bilgiyi kolayca aktarabileceğinden potansiyel uzun aralıklı ilişkiselliği yakalayabilmektedir. Bağışıksal hafızanın uzun süreli muhafaza edilmesi sürecinde seçilen öznitelikler, hafızasal öznitelik grupları olarak adlandırılmıştır. Optimal biyolojik gen sekansları, sağlam ve kararlı hafızasal öznitelik gruplarından elde edilmiştir. Elde edilen sonuçlar, kararlı öznitelik gruplarının alanlarında uzman kişilerin bilgi keşiflerinde yeterli güvenilirliği sağladığını doğrulamıştır.