Özet:
Internetteki bilgiler gün geçtikçe artmakta ve bu geniş bilgi ağında istenilen bilgiye ulaşmak büyük bir problem oluşturmaktadır. Bu problemi çözmek adına geliştirilen arama motorları, internet sitelerini olabildiğince indeksleyerek, kullanıcıların bu veriler üzerinde istedikleri bilgileri aramalarına imkan sağlamaktadır. Internet gibi geniş bir ağ düşünüldüğünde, yapılan aramalarda ?seçilen sorguya göre- yeri geldiğinde milyonlarca internet sayfası bulunabilmektedir. Bulunan bu kadar sonuç arasından kullanıcının ulaşmak istediği bilgiye en yakın sayfayı bulması ise, ayrı bir problem oluşmaktadır. Bu problemi çözmek için günümüz arama motorları bir çok yöntem sunmaktadır. Arama sonuçlarının belirli kurallara göre derecelendirilerek sıralandırılması için sonuçların kümelenmesi ya da gruplanmasına dayanan yöntemler geliştirilmiştir. Arama sonucunun kümelenmesi de, bu probleme çözüm getirmek için uygulanan yöntemlerden biridir. Arama motoru tarafından getirilen sonuçların, çeşitli bilgi çıkarımı yöntemleriyle içeriğine göre kümelere ayrılmasına dayanır. Arama sonuçları, kullanıcıya açıklayıcı etiketler içeren kümeler halinde gösterilirler. Böylece kullanıcı, kümelerden aradığı bilgiye en yakın olanını seçerek, aradığına daha çabuk ulaşabilir. Arama sonucu kümeleme için bir çok çalışma yapılmıştır. Bu alanda kullanılan en yaygın ve hızlı algoritmalardan biri olan Son Ek Ağacı Kümeleme (Suffix Tree Clustering) algoritmasıdır. Bu tez'deki amacımız, Son Ek Ağacı Kümeleme algoritmasıyla ve doküman benzerliğine dayanan kendi geliştirdiğimiz bir algoritmayla Türkçe sayfalar üzerinde arama sonucu kümeleme çalışmaları yapmak ve mümkün olduğunca bu algoritmaları Türkçe için daha iyi sonuçlar verecek şekilde düzenleyerek başarısını ölçmektir. Çalışmamız çerçevesinde, doküman benzerliğine dayanan DBC, klasik SAK (KSAK), KSAK üzerinde geliştirmeler yaparak oluşturduğumuz GSAK ve GSAK'den elde edilen sonuçların DBC sonuçlarıyla karşılaştırılarak geliştirilmesine dayanan M-GSAK yöntemleri kullanılmıştır. Bu yöntemler kullanılarak yaptığımız deneyler neticesinde, Türkçe arama motoru sonuçları üzerinde, GSAK ve M-GSAK ile yaptığımız kümeleme işlemlerinde, KSAK'ye göre daha başarılı sonuçlar alınmıştır. F-Ölçüm sonuçlarına göre GSAK, KSAK'den %77, M-GSAK de, GSAK'den %13 oranında daha başarılı olmuştur. Ayrıca üzerinde geliştirmeler yapılan SAK tabanlı yöntemler ile doküman benzerliği tabanlı yöntemlerden daha başarılı sonuçlar alındığı da görülmüştür. GSAK, DBC'den %9 oranında daha başarılı sonuç elde etmiştir.