Özet:
Sosyal Web Madenciliği, günümüzde oldukça ilgi çekmekte olan bir alandır. İnsanlar tarafından dinamik olarak oluşturulan ve büyük bir hızla büyüyen sosyal medya verileri, grip salgınları ve seçim sonuçları gibi birçok farklı konuda önceden tahminlerde bulunmak için kullanılmıştır. Bu çalışmada da oldukça zengin bir veri kaynağı olan Twitter isimli sosyal medya platformundan toplanan veriler ile Türk televizyonlarında yayınlanan programların izlenme oranı sıralaması tahminlerini yapmak amacıyla bir sistem geliştirilmiştir. Bu sistem; otomatik olarak çeşitli kaynaklardan veri toplama, verileri ilişkisel olarak depolama, veriler üzerinde temizlik, doğal dil işleme, anlamsal sınıflandırma ve izlenme oranı sıralaması tahminleri yapabilme yeteneklerine sahiptir.
Sistem geliştirilirken Naive Bayes, Destek Vektör Makinesi ve Rastgele Orman sınıflandırma algoritmalar, Twitter’dan alınan ve sistem tarafından çeşitli şekillerde işlenen veriler ile oluşturulan eğitim setleri kullanılarak eğitilmiş ve test edilmiştir. Çalışmada testlerin karşılaştırmalı sonuçları verilmiştir. Testlerde en yüksek başarıyı elde eden sınıflandırma algoritması sistemde kullanılarak, televizyon programları hakkında toplanan veriler sınıflandırılmıştır. Bu sınıflandırma sonuçları kullanılarak her program için gün bazında izlenme oranı puanları hesaplanmış ve bu puanlara göre izlenme oranı sıralaması tahminleri yapılmıştır.
Sistem tarafından tahmin edilen ve resmi sonuçlar, farklı kriterlere göre ve farklı yöntemler kullanılarak karşılaştırılmıştır. Bu karşılaştırma sonuçları paylaşılmıştır.