Özet:
Ulusal İstatistik Enstitüleri (UİE) tarafından üretilen resmi veriler devletin
ekonomik ve sosyal karar alma sürecinde önemli bir rol oynamaktadır. Resmi
verilerin geleneksel istatistiksel yaklaşımlardan ziyade veri madenciliği (VM)
yöntemleri ile ele alınması, yeni bilgiler ve gizli kalıpların ortaya çıkarılması
bakımından önem kazanmaktadır. Resmi istatistikler için VM yöntemleri kullanışlı
olmakla birlikte hala yeni VM yöntemlerinin keşfedilmesi devam etmektedir. Bu
çalışmada, Türkiye İstatistik Kurumu (TÜİK) tarafından yürütülen 2015 yılı Gelir
ve Yaşam Koşulları Araştırması (GYKA) verileri VM yöntemleri ile incelenmiştir.
36036 adet ferde ilişkin yatay kesit verileri ele alınmış olup fert gelirini en çok
etkileyen değişkenler belirlenerek fertlerin refah durumu incelenmiştir. Fertlerin
sosyoekonomik profillerinin belirlenmesi amacıyla gizli sınıf analizi (GSA) ve k- modlar kümeleme analizi kullanılmıştır. Bireylerin sosyoekonomik durumu
kümeleme ve rastgele orman (RO) algoritma modelleri kullanılarak
sınıflandırılmıştır. 10 sınıflı GSA modelinde yeni seçilen bir ferdin hangi olasılıkla
hangi sınıfa dahil olacağı elde edilmiştir. Elde edilen gizli sınıfların en yüksek
olasılıkla aldıkları değişken değerlerine göre fertlerin gizli sınıf profil tanımları
elde edilmiştir. k-modlar kümelemesi sonucu elde edilen 10 adet küme, küme
modlarına göre tanımlanmış ve fertlerin küme profil tanımları elde edilerek
sonuçları GSA sonuçlarıyla karşılaştırılmıştır. Kategorik değişkenlerin ele alındığı
bu çalışmada, GSA yönteminin k-modlar kümeleme yöntemine göre daha tutarlı
sonuçlar sağladığı görülmüştür. Fert gelirinin diğer tüm dokuz adet girdi
değişkeninin fonksiyonu olarak seçildiği RO modelinde değişkenlerin önemlilikleri
belirlenmiştir. Sırasıyla eğitim, meslek ve yaş değişkenlerinin daha önemli olduğu
ve RO modeline en fazla katkıyı sağladığı gözlenmiştir. Oldukça kapsamlı ve
detaylı bir veri olan GYKA verisinde, VM yöntemlerinin uygulanabilmesi ve
veriden anlamlı sonuçlar çıkarılması bakımından GSA ve RO gibi yöntemler uygun
görünmektedir. Benzer VM süreçleri farklı resmi veriler için de anlamlı sonuçlar
elde etmek amacıyla kullanılabilir.
Bu çalışmada ifade edilen görüş ve yorumlar hazırlayanın kendisine ait olup,
TÜİK’i bağlamaz. Bu teze dayalı tüm çalışmalar için de aynı kural geçerlidir.