Abstract:
İstatistik bilimi veri analizinde yüzyıllardan beri kullanılmaktadır. Ancak veri miktarındaki devasa artış, geçmiş veri içerisinden ilgi çekici (önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı) bilginin gelecekteki eğilimini kestirmek ya da sonraki aşamalarda analiz etme ihtiyacı, temeli istatistiğe dayanan veri madenciliği kavramını ortaya çıkarmıştır. Veterinerlik alanındaki çalışmalarda hayvanlardan elde edilen veri setleri genellikle istatistiksel yöntemlerle analiz ediliyor olsa da veri madenciliği, veri analizinde gün geçtikçe popülerliğini ve işlevini artıran bir alan olarak karşımıza çıkmaktadır. Veri madenciliği, bilgilerin analiz edilmesi ve yorumlanacak bilgiler edinmeyi sağlayan bir süreçtir. Veri yığınları içinde açık olmayan fakat anlamlı gizli örüntüleri ve işe yarar bilgileri bulmak bu yöntemler ile gerçekleştirilir.
Bu tez çalışmasında, veri madenciliği yöntemleriyle hayvan hastalıklarında teşhis, prognoz ve risk faktörlerinin belirlenmesi amaçlanmaktadır. Veri setindeki eksik değerleri tamamlamak için en başarılı eksik değer tamamlama yöntemi belirlenmiştir. Bunun için ortalama, ortanca, k en yakın komşu, mice, miss forest ve geliştirilen yapay arı koloni (YAK) yöntemleri ortalama karesel hatanın karekökü (OKHK) sonuçlarına göre karşılaştırılmıştır. Karşılaştırma sonucunda en başarılı yöntem YAK olarak belirlenmiştir. Verilerin normalizasyonu aşamasında; minimum-maksimum, ondalık ölçeklendirme, z-
değeri ve sigmoid normalizasyon yöntemleri karşılaştırılmıştır. K-ortalama kümeleme sonucunda 0.735 saflık ve 0.86 entropi ile en başarılı yöntemin sigmoid olduğu tespit edilmiştir. Verilerin sınıflandırılması aşamasında; karar ağaçları (KA), saf bayes (SB), k-en yakın komşu (KEYK), yapay sinir ağları (YSA) ve rastgele orman (RO) algoritmaları karşılaştırılmıştır. Doğruluk=0.8427, dengeli doğruluk=0.7132, seçicilik=0.91, duyarlılık=0.5164, kappa=0.4304 sonuçlarıyla en başarılı yöntemin Saf bayes olduğu belirlenmiştir. Ayrıca 0.765 eğri altında kalan alan (EAKA) değeriyle yine en başarılı yönetimin saf bayes olduğu görülmüştür. Bilgi kazancı yöntemi ile özellik seçimi yapıldıktan sonra, özellik sayısı 14’den 4’e düşürüldüğünde sınıflandırma başarısının %4 yükseldiği görülmüştür. Ortak bilgi yöntemine göre neonatal dönemde ölümler için eşik seviyesi immunoglobulin-G (IgG) < 500, Gamma-Glutamyl transferase (GGT) < 500, Lactoferrin (LT) 1201-1600, Total Protein (TP) 31-40 ve Albümin (ALB) < 35 olarak belirlenmiştir. Ayrıca veteriner hekime yardımcı mobil ve masaüstü uygulama geliştirilmiştir.