Özet:
İnternet'in yaygınlaşmasıyla elektronik ortamdaki doküman sayısı oldukça artmıştır.Gittikçe artan bu bilgiye daha kolay ve hızlı erişmek amacıyla metin sınıflandırma önemkazanmaktadır. Son yıllarda, metin sınıflandırma alanında yapılan çalışmaların bir kısmı,yazar tanıma adı verilen ve anonim bir metnin yazarını veya yazarı şüpheli olan birmetnin yazarını belirlemeyi amaçlayan çalışmaları kapsamaktadır.Bu çalışmada, Türkçe dokümanların yazarlarının belirlenmesinde farklı özelliklerin vesınıflandırıcıların performansa etkileri araştırılmıştır. Dokümanların istatistiksel,dilbilgisel, kelime zenginliğine dayalı özellik vektörleri çıkarılmıştır. Ayrıca Türkçedokümanlar için ilk defa, işlevsel kelimelerin frekansları çıkarılarak ayrı bir özellikvektörü daha oluşturulmuştur. Sonraki aşamada seçilen bazı vektörler birleştirilerek yeniözellik vektörleri oluşturulmuştur. Sistemin öğrenmesine etkisi olmayan veya ayırt ediciözelliği fazla bulunmayan özellikleri elemek amacıyla, özelllik azaltma metoduuygulanarak yeni vektörler elde edilmiştir. Sonuçta, 14 farklı özellik vektörüoluşturulmuş ve bunlar ile denemeler yapılmıştır.Kullanılan külliyat, sağlık, gündem, ekonomi gibi farklı konularda yazan 18 yazara ait,35 adet doküman alınarak 630 metinden oluşmaktadır. Farklı doküman gruplarının, farklıkonularda yazılan metinlerin ve yazar sayısının başarıya olan etkisini gözlemlemekamacıyla 3 farklı külliyat grubu oluşturulmuştur. Tüm deneylerde 10-kat çapraz geçerlilikuygulanmıştır.Yazar belirlemede hangi özellik veya özellik birleşimlerinin daha başarılı olduğunuanaliz etmek amacıyla altı farklı sınıflandırma metodu kullanılarak performanslarıkarşılaştırılmıştır. Bu metodlar Naive Bayes, Destek Vektör Makinesi, Rastgele Orman,K-Enyakın Komşuluk, Çok Katmanlı Algılayıcı ve Öz Düzenleyici Özellik Haritası' dır.Sınıflandırıcı birleştirme işleminin performansını gözlemlemek amacıyla, Naive Bayes,Destek Vektör Makinesi ve Rastgele Orman yöntemleri birleştirilmiştir.Yapılan denemelere göre, en başarılı sonuçlar, yazar sayısının az olduğu ve farklıkonulardaki yazılardan oluşan külliyattan elde edilmiştir. Tüm özelliklerinbirleştirilmesinden oluşan özellik vektörü, diğerlerine göre daha iyi performans göstermişve en yüksek başarı oranını Çok Katmanlı Algılayıcı yöntemi vermiştir. Birleştirilmişsınıflandırıcılar ile bireysel sınıflandırıcılara göre daha düşük başarı sonuçları alınmıştır.Anahtar kelimeler: Yazar tanıma, metin sınıflandırma, özellik seçme, sınıflandırıcıbirleştirme, Naive Bayes, Destek Vektör Makinesi, Rastgele Orman, K-EnyakınKomşuluk, Çok Katmanlı Algılayıcı ve Öz Düzenleyici Özellik Haritası.