Özet:
İki-sınıflı veri setlerindeki en önemli sorunlarından biri olan sınıf dengesizliği sorununu çözmek son yıllarda daha fazla önem kazanmıştır. Veri kümesinde sınıf dağılımı dengesiz olduğu zaman, geleneksel makine öğrenme yöntemleri genellikle azınlık sınıfının görülmemiş örnekleri için düşük sınıflama başarısı vermektedir. Çünkü çoğunluk sınıfına doğru kuvvetle yönlenme eğilimindedir. Literatürde sınıf dengesizliği sorununu gidermek için çeşitli algoritmalar mevcuttur. Bu tez, sınıf dengesizliği probleminin önemini ve problemin çözümünün veri madenciliğindeki geniş uygulama alanlarını değerlendirme ölçüleri ile tanıtır. Ayrıca dengesizlik sorununu değerlendirmek ve çözmek için mevcut yöntemleri, C4.5, DVM ve KNN gibi farklı sınıflandırıcıları temel öğrenici olarak kullanarak karşılaştırır. En iyi temel öğreniciyi ve çoğunluk ve azınlık sınıfları dağılımına göre en iyi performansa sahip algoritmayi bulmak amacıyla çeşitli deneyler yapılmıştır. Buna ek olarak, tez kapsamında geliştirilen yeni bir algoritma olarak RusAda önerilmiştir ve bu algoritma tezde incelenen diğer algoritmalarla karşılaştırılmıştır.