Özet:
Bilgisayar sistemlerinin ilk uygulama alanları veri toplama ve raporlama üzerinedir. Veri saklama kapasitelerinin ve bu verileri işleyecek bilgisayar işlemci gücünün artması ile daha fazla veriyi saklama ve inceleme imkanı doğmuştur. (Fayyad vd, 1996a). Böylece daha önce verilerden elde edilemeyen ilişkilerin, desenlerin ortaya çıkarılması mümkün hale gelmiştir. Geleneksel sorgulama yöntemlerinden farklı olan bu yöntemler veri madenciliği adı altında toplanmıştır.Veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir (Hand vd., 2001).Belge bazlı veri yığınları içinden doğru belgelerin bulunması, belgelerin birbirleri arasındaki ilişkilerin sorgulaması işlemleri için veri madenciliği alanındaki teknikler birebir uygulanabilir değildir. Bu nedenle belge madenciliği yapmak için farklı yöntemler geliştirilmiş ve bu alan metin madenciliği, belge madenciliği, yarı yapısal veri madenciliği gibi isimler altında toplanmıştır.Belge madenciliği çalışmalarında amaç belge içeriğinin, bir insan tarafından okunmuşçasına bilgisayar ortamında belirlenmesini içerir. Bu durumda belgelerin hangi dilde yazıldığı önem kazanmaktadır. Bu yönü itibariyle doğal dil işleme alanı ile belge madenciliği arasında sıkı bir ilişki doğmuştur. Hem belge madenciliği hem de doğal dil işleme çalışmaları uzun yıllardan beri İngilizce başta olmak üzere farklı diller üzerinde yapılmıştır.Türkçe doğal dil işleme çalışmalarının somut sonuçları yeni yeni elde edilmekte ve henüz net olarak araştırmacılar arasında paylaşılmış değildir. Bu nedenle doğal dil işleme tekniklerini içinde taşıyan bir Türkçe belge madenciliği çalışması yapmak, özellikle bu tez çalışmasının temellerinin atıldığı 2004 yılı içinde pek anlamlı ve mümkün olmamıştır.Bu tez çalışması Türkçe belgeler üzerinde belge madenciliği yapmak amacıyla, Gizli Anlambilimsel Dizinleme (GAD) yöntemini kullanmakta ve kelimelere uygulanan n-gram yaklaşımını bu yöntemle birleştirmektedir.Belge madenciliği çalışmalarının uluslararası çapta değerlendirilebilmesi için, her belge madenciliği yöntemi ile kullanılabilecek standart belge kümeleri geliştirilmiştir. Bu konuda Türkçe yapılan çalışmalar olmakla birlikte, standart kabul edilmiş bir derlem ya da belge kümesi henüz bulunmamaktadır. Türkçe belge madenciliği için ortaya attığımız yöntemi test edebilmek için 2000 yılından bu yada yayınlanan iş dünyası dergilerinden elde edilen makalelerden bir belge kümesi oluşturulmuş ve bu küme üzerinde sorgulama ve demetleme teknikleri kullanılarak testler yapılmıştır. Sorgulama testlerinde geleneksel GAD yöntemi, önerdiğimiz n-gram destekli GAD yönteminden geri kalmıştır. Benzer şekilde n-gram destekli GAD ile yapılan demetleme işlemi, geleneksel GAD yöntemini geride bırakmıştır.Önerdiğimiz yöntem, Türkçe belgelerin madenciliği için kullanılmıştır. Bu amaçla bir Türkçe belge kümesi oluşturulmuştur. Ancak bu belge kümesi, uluslararası standart belge kümeleri gibi Türkçe için kabul edilmiş bir standart değildir. Bu nedenle elde edilen neticelerin değerlendirilmesinde, belge kümesinin yanlılığı gibi bir sebebe dayalı subjektiflikler olduğu iddia edilebilir. Bunu ortadan kaldırmak için aynı yöntem uluslararası kabul görmüş standart İngilizce Reuters 21578 belge kümesine uygulanmıştır. Türkçe belge kümesinde elde edilen sonuçlara paralel olarak Reuters 21578 belge kümesi üzerinde yapılan sorgulama ve demetleme işlemleri başarılı neticeler vermiştir.