Özet:
Verilen iki metinin birbirleri ile benzerlik oranını hesaplamak için çok sayıda yöntem bulunmaktadır. Bu yöntemlerin bazıları doğrudan metinlerin benzerliklerini klasik yöntemlere göre hesaplarken, diğer bazı yöntemler ise daha akıllı bir şekilde çalışarak daha doğru ve insan zekasına yakın benzerlikler hesaplayabilmektedirler. Bu ikinci kısım yöntemler genel olarak Bulanık Metin Benzerliği olarak adlandırılmaktadır.Bulanık metin eşleme yöntemleri genellikle İngilizce dili ve İngilizce metinler düşünülerek geliştirildiğinden, İngilizce metinler için yüksek başarı gösterseler bile Türkçe metinlerde çoğu kez bu kadar başarılı sonuçlar üretememektedirler.Bu nedenle bu çalışmada Türkçe metinlerin eşlenmesinde ve benzerliklerinin hesaplanmasında sık karşılaşılan bazı hata durumları modellenerek yeni bir benzerlik hesaplama yöntemi geliştirilmiştir. Bu yöntem özellikle yazım yanlışlarını algılayıp, metinlerin benzerliklerini daha tutarlı bir şekilde hesaplamaktadır. Burada metin olarak ifade edilen kavram, birkaç harften oluşan bir kelime olabileceği gibi yüzlerce kelimeden oluşan paragraf gibi uzun bir metin parçası da olabilir.Geliştirilen bu yöntemin başarısını ölçmek için farklı seviyelerde ve farklı özelliklere sahip bilgisayar kullanıcılarından, farklı şekillerde veri girişi yapmaları talep edilerek, kullanıcıların hatalı girdikleri bu veriler kullanılmıştır. Bu kullanıcıların hatalı girdikleri metinler ve bu metinlerin doğru hallerinden oluşan metin çiftlerinin benzerlik oranları, Geliştirilen yöntem, Edit Distance Benzerliği ve Jaro-Winkler Benzerliği olmak üzere 3 farklı yöntem ile hesaplanarak, karşılaştırmalı olarak başarıları ölçülmüştür. Ayrıca bahsedilen 3 yöntemi kullanarak, herhangi bir Oracle veritabanı sisteminde bulunan tablolardaki tekrarlı veya benzer kayıtları bulan bir yazılım gerçekleştirilmiştir.Yapılan bu çalışma Türkçe Doğal Dil İşleme, veritabanı sistemlerinde bulunan benzer kayıtların bulunması, Türkçe işletim sistemi, Türkçe arama motorları, entegrasyon projeleri ve e-Devlet çalışmalarında faydalı olabilir.