Özet:
İnternet kullanımının hızla yaygınlaşmasıyla birlikte her geçen gün farklı kategorilerde bir çok doküman elektronik ortamda yerini almaktadır. Artan doküman sayısıyla birlikte bu dokümanların benzer olanlarının önceden belirlenmiş gruplara ayrılması ihtiyacı ortaya çıkmıştır. Doküman sınıflandırma dediğimiz bu işlem sayesinde dokümanlar önceden belirlenmiş sınıflara ayrıştırılmaktadır. Bu çalışmada dokümanlar, dokümanların türüne, yazarına ve yazarının cinsiyetine göre olmak üzere üç ana başlık altında sınıflandırılmıştır.Yapay Bağışıklık Sistemleri, doğal bağışıklık sisteminden esinlenerek, bu sistemin mühendislik açısından incelenerek karmaşık problemlerin çözümünde kullanılan yöntemlerden biridir. Daha önce örüntü tanıma, hesapsal güvenlik, anomali tespiti, optimizasyon, makine öğrenmesi, robotik, kontrol, çizelgeleme, hata teşhisi gibi alanlarda ve bunların alt dallarında, ayrıca ekoloji, üretim sistemleri, akıllı evler, adaptif gürültü nötralizasyonu, indüktif problem çözümü, açık web sunucu koordinasyonu, protein yapısı tahmini gibi alanlarda başarıyla kullanılmış ve etkili sonuçlar alınmış olan bu yöntem doküman sınıflandırma alanında ilk kez bu çalışmada kullanılmıştır.Çalışmada 16 farklı özellik vektörü oluşturularak, Yapay Bağışıklık Sistemi algoritmalarıyla ve literatürde daha önce bu alanda sıkça kullanılan diğer sınıflandırma yöntemleri olan Naive Bayes, K-En Yakın Komşuluk, Destek Vektör Makinesi ve Rastgele Orman gibi sınıflandırıcılarla deneyler gerçekleştirilerek Türkçe dokümanlar üzerinde dokümanın türü, yazarı ve yazarının cinsiyeti belirlenmeye çalışılmıştır.Özellik vektörleri üzerinde boyut indirgeme işlemleri uygulanarak sınıflandırma yöntemlerinin başarılarının arttığı gözlenmiştir.Yapılan denemelerde karakter n-gram'ları, kelime kökleri ve kelime gövdeleri gibi uygun özellik vektörlerinden YTU boyut indirgeme algoritmasıyla oluşturulmuş yeni özellik vektörleriyle Yapay Bağışıklık Sistemi algoritmalarının Türkçe dokümanların türünü, yazarını ve yazarının cinsiyeti belirlemede çok başarılı sonuçlar verdiği ve bu alanda geliştirilecek olan sistemlerde kullanılabileceği görülmüştür.