Özet:
Bilgisayarların çıkısı ve gelismesiyle her geçen gün biraz daha değisen ve gelisen bir dünyadayasamaktayız. Bilgisayarlar yasantımıza birçok kolaylık katmakta, yapılan islerin yükünühafifletmekte, daha iyi sonuçlara, daha kısa yollardan ulasmamızı sağlamaktadır. Bilgisayarlaraynı isi otomatik olarak ve daha verimli yapacağından insan kaynaklı hatalar en azaindirgenir.Bilgisayarların gelisimine paralel olarak, insanlar daha fazla bilgiye erisim olanakları bulmusve günden güne, çok sayıda veriyi depolayan sistemler, yani veritabanları olusturulmus ve buveritabanlarının boyutları da günden güne büyümüstür.Çesitli tipte veritabanları mevcuttur. Metin halindeki verilerin bulunduğu veritabanlarındanbilgiyi kolayca elde etmek için metin kategorizasyon yöntemleri uygulanır. ?lk zamanlardainsan aracılığıyla yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir sekildeartması dolayısıyla otomatik olarak yapılır hale gelmistir. Bunun için, daha öncedenkategorileri tanımlanmıs olan eğitim dokümanları yardımıyla metin halindeki verilersınıflandırılabilmektedir.Tezde, amaç doğrultusunda, metin halindeki verilerin sınıflandırılmasında kullanılan metinkategorizasyon teknikleri (Naive Bayes, k-NN) ve çesitli ağırlıklandırma yöntemleriincelenmis olup, daha sonra bu teknikleri kullanarak VisualBasic.NET programlama dili ilemetin kategorizasyon programı yazılmıs ve aynı zamanda ilgili tekniklerin doğrusınıflandırma olasılıkları açısından kıyaslamaları yapılmıstır. Bu tezde, metin sınıflandırmasıüzerinde çalısmak için Anadolu Ajansı adlı Türkçe bir veri kümesinin derlemesi sunulmustur.Anahtar Kelimeler: Metin kategorizasyonu, naive bayes ve k-nn algoritmaları, metinmadenciliği, sınıflandırma, joker (wild card) yöntemi.