Özet:
Metin tipindeki bilgiye erişim, verinin yapısı ve doğası gereği zorlu bir iştir. Bu sebeple bilgiye erişimi kolaylaştırmak için metnin özelliklerine göre kategorizasyon çözümleri geliştirilmiştir. Ancak metin verisi çok sayıda özellik içerdiği için kategorizasyon yöntemleri ile çalışmak da güçtür. Bu problemin çözümü için özellikleri azaltan boyut indirgeme yöntemleri ortaya atılmıştır. Boyut indirgemede ilk yaklaşım özellik seçimidir ve başarımı en az düşürecek ve efektif çalışmayı arttıracak şekilde, özelliklerin sayısının azaltılması hedeflenir. İkinci yaklaşım olan özellik çıkarımında ise amaç az sayıda yeni özellikle verinin yeniden tanımlanmasıdır.Özellik seçim yöntemleri ile belgeleri diğerlerinden daha iyi tanımlayan terimler seçilmeye çalışılır. Bunun için çeşitli deneyler yaparak diğerlerinden daha iyi sonuç veren terim alt kümesini arayan yöntemler olduğu gibi, çeşitli değerlendirme ve dizme yöntemleriyle terimleri sıralayıp belirli bir eşik değerinin üzerinde değer alan terimleri seçen yöntemler de mevcuttur. Metin işleme uygulamalarında boyut indirgeme için genellikle özellik seçim yöntemleri tercih edilmektedir.Özellik çıkarım yöntemleri, belgeleri terimlerin bileşkesini alarak daha düşük boyutlu yeni bir uzayda kaynaştırılmış yeni özelliklerle ifade eder. Bu sayede veri, sayıca daha az ve orijinallerinden bağımsız özelliklerle ifade edilmiş olur. Çıkarılan özellikler belgelerin karakteristikleri hakkında gözlenebilir bilgi de sunmaz.Bu tez çalışması kapsamında, metin işleme alanı için yeni bir özellik çıkarım yöntemi geliştirilmiştir. Bir veri kümesinde yer alan terimlerin belgelerdeki dağılımları, belgelerin kategorilere ait olmasında etki sahibidir. Özellik seçiminde de terimlerin ayırt ediciliklerine bakarak seçim yapan yöntemler mevcuttur. Bu sebeple çalışmada ilk olarak terimlerin ayırt edicilikleri ağırlıklandırılarak ortaya çıkarılmıştır. Daha sonra belgeler her bir sınıf için etki değerlerinin bileşkesinden oluşan, yeni bir uzayda yer alan özelliklerle ifade edilmiştir. Çıkarılan özelliklere, belgelerdeki orijinal terimlerin her bir sınıfa olan etkisinin bileşkesini temsil ettiği için soyut özellikler adı verilmiştir. Kısaca, soyut özellik çıkarım yöntemi ile belgelerdeki terimlerin içerdiği ayırt edicilik değerleri kullanılarak terimlerin sınıflara olan etkilerinin bileşkesi yeni bir uzayda soyut olarak ifade edilmiştir.Soyut özellik çıkarım yönteminin başarımını test etmek ve diğer yöntemlerle karşılaştırmak üzere metin tipinde veri kümeleri üzerinde sınıflandırma testleri gerçekleştirilmiştir. Türkçe veri kümesi olarak DMOZ dizininden taranan örün sayfaları ile bir veri kümesi oluşturulmuştur. Sonuçları doğrulamak üzere bağımsız bir DMOZ test veri kümesi de hazırlanıp kontrol testleri yapılmıştır. Standart veri kümeleri olarak Reuters-21578 ve 20-Newsgroups seçilmiş ve kullanılmıştır. Bağımsız eğitim-test kümeleri ile test yapabilmek için, ModApte-10 veri kümesi ile de testler tekrarlanmıştır. Karşılaştırma için özellik seçim yöntemleri olarak chi-kare, korelasyon katsayısı ve karşılıklı bilgi, özellik çıkarım yöntemleri olarak da PCA, LSA ve LDA testlere dahil edilmiştir. Sınıflandırma testleri için değişik tasarım yaklaşımlarına sahip algoritmalar tercih edilmiştir. İstatistiki sınıflandırıcı olarak Naive Bayes, karar ağacı olarak C4.5, kural tabanlı sınıflandırıcı olarak RIPPER, örnek temelli yöntem olarak 10 en yakın komşu, kontrollü varyasyonlara sahip karar ağaçları koleksiyonu için rastgele orman, çekirdek tabanlı sınıflandırıcı olarak destek vektör makineleri, doğrusal sınıflandırıcı olarak LINEAR kullanılmıştır. Ayrıca sınıflandırma algoritmalarının parametrelerinin başarıma olan etkisini ölçmek üzere destek vektör makineleri sınıflandırma algoritması farklı çekirdek alternatifleriyle denenerek sınanmıştır. Sınıflandırma deneylerinde doğrulama için standart eğitim ve test kümesi ayırımı olan veri kümeleri haricinde 10 kere çapraz doğrulama kullanılmıştır.Yapılan testlerin sonuçlarına göre soyut özellik çıkarım yöntemi diğer yöntemlerden daha yüksek başarım sağlamıştır. Yöntem bazında testlerin ortalama sonuçları incelendiğinde de soyut özellik çıkarım yönteminin başarımı diğerlerinden yüksektir. Bu sonuçlardan anlaşılacağı üzere soyut özellik çıkarım yöntemi veri kümelerini metin işleme uygulamalarına efektif olarak hazırlamak için kullanılabilir. Bunun yanında yöntem sınıfların ayrılabilirliği hakkında da bilgi vermektedir. Yöntem ile ortaya çıkarılan soyut özellikler, örneklerin kendi sınıfına ve diğer sınıflara ait olma olasılıkları olarak da değerlendirilebilir. Örneklerdeki soyut özelliklerin değerleri birbirine yakın olduğunda sınıfların ayrılabilirliği az olmaktadır. Soyut özelliklerin değerleri arasındaki farklar büyüdükçe sınıfları bağımsız olarak ayırt etmek daha kolaydır.