Özet:
Varlık İsmi Tanıma, Doğal Dil İşleme'de bilgi çıkarımın bir alt dalı olup, kişi ve kurum ismi, yer, zaman, saat, kısaltma ve para gibi önceden belirlenmiş olan varlık sınıflarını dile bağımlı veya dilden bağımsız olarak bir doküman içerisinde arayıp bulan sistemlerdir. Varlık İsmi Tanıma için kullanılan ilk sistemler kural tabanlı iken, son zamanlarda makine öğrenmesi teknikleri kullanılarak modern sistemler geliştirilmiştir. Hem kural tabanlı hem de makine öğrenmesini birlikte kullanan hibrit sistemler de mevcuttur. Bu tez çalışmasında resmi olmayan bir dilde yazılmış Türkçe dokümanlar için tasarlanmış, Şartlı Rastgele Alanları kullanan Varlık İsmi Tanıma çalışmasından bahsedilmektedir. Sınıflama ve etiketleme işlemi kişi, kurum ve yer isimleri temel olmak üzere tarih ve para varlıkları için de gerçekleştirilmiştir. Çalışmanın gerçeklenmesi sırasında makine öğrenmesi teknikleri kullanılarak daha verimli sonuçlar elde etme işlemine odaklanılmıştır. Çalışma üç adımdan oluşmaktadır. İlk olarak, resmi olmayan bir dilde yazılmış Türkçe e-postalar içerisinden Şartlı Rastgele Alanlar kullanılarak özel isimlerin etiketlenerek çıkartılması gerçekleştirilmiştir. Çalışmanın ikinci adımında, belli bir çalışma alanına bağlı olmayan, konudan bağımsız dokümanlar için Şartlı Rastgele Alanlar kullanılarak dokümanlardaki varlık isimlerinin belirlenmesi gerçekleştirilmiştir. Çalışmanın son adımında ise, yarı eğiticili teknik ile uygulanan çalışma kural tabanlı yöntem ile desteklenerek dokümanlardan varlık isimlerinin çıkartılması gerçekleştirilmiştir. Varlık İsmi Tanıma için gerçekleştirilen çalışmada, eğitim verisi ne kadar çok etiketlenmiş varlık içerirse başarı oranı da o ölçüde etkilenmektedir. Çalışmada Şartlı Rastgele Alanlar yöntemi ile kişi isimlerinde elde edilen başarı kurum ve yer isimlerinde elde edilen başarıdan daha yüksek çıkmıştır.