Özet:
Bizler bilgilerin değerli olduğu bir dünyada yaşıyoruz. Son yıllarda bilgi miktarınınartması, ihtiyaç duyduğumuz bilgilere kısa sürede erişebilmeyi zor hale getirmiştir ve buproblem nedeniyle bu işlerin elle yapılabilmesi neredeyse imkansızdır. Probleminçözümü için doküman sınıflandırma sistemlerine ihtiyaç duyulmaktadır. Diğer dillerinaksine bu konuda Türkçe üzerinde çok az çalışma mevcuttur. Sınıflandırma işlemidoküman işleme için önemli bir konu olup, elektronik ortamdaki dokümanların otomatikolarak sınıflandırılmasına izin verir. Bu çalışmada, Türk dilinin 2, 3 ve 4'lü gramlarıçıkarılarak farklı boyutlarda özellik vektörleri oluşturulmuştur. Daha sonra bu özellikvektörlerinin boyutları korelasyon tabanlı özellik seçiciler kullanılarak azaltılmış ve farklıboyutlarda özellik vektörleri elde edilmiştir. N-gram modeline dayalı bu özellikvektörleri, seçilmiş (sınıflandırma başarısı yüksek) sınıflandırma yöntemleri yardımıylaTürkçe bir dokümanın türünü, yazarını ve doküman yazarının cinsiyetini belirlemekamacıyla kullanılmışlardır.Kullanılan veri seti spor, magazin, güncel, ekonomi, sağlık ve politika gibi farklıkonularda yazan 20 yazara ait, 40 adet doküman alınarak 800 metinden oluşmaktadır.Dokümanın türünü, yazarını ve yazarın cinsiyetini belirlemek için eldeki veri seti üç ayrıformatta düzenlenmiştir. Ayrıca sınıflandırma başarısının tesadüfi olmadığını göstermekiçin tüm deneylerde 10-kat çapraz geçerlilik uygulanmıştır.Tür, yazar ve cinsiyet belirlemede hangi n-gram özelliklerin daha başarılı olduğunuanaliz etmek amacıyla beş farklı sınıflandırma metodu kullanılarak performanslarıbirbirleri ile karşılaştırılmıştır. Bu metotlardan dördünü Naive Bayes, Destek VektörMakinesi, Rastgele Orman, K-En Yakın Komşuluk gibi bilinen sınıflandırma yöntemleri,birini de bizim geliştirdiğimiz ng_ind yöntemi oluşturmaktadır. Sınıflandırıcıları birliktekullanma işleminin başarısını gözlemlemek amacıyla, Naive Bayes, Destek VektörMakinesi, Rastgele Orman ve K-En Yakın Komşuluk yöntemleri birlikte kullanılmıştır.Yapılan denemelere göre, cinsiyet belirleme için bayan yazarların yazıları, tür belirlemeiçin spor ve güncel alanlarda yazılmış yazılar, yazar tanımada da bayan yazarlarınyazıları daha başarılı sonuçlar vermiştir. Özelliklerin azaltılması ile elde edilen özellikvektörleri, diğer özellik vektörlerine göre daha iyi performans göstermiştir ve en yüksekbaşarı oranını, yazar tanımada DVM, tür ve cinsiyet belirlemede Ng-ind yöntemivermiştir. Birlikte kullanılan sınıflandırıcılar ile bireysel sınıflandırıcılara göre dahayüksek başarı sonuçları alınmıştır.