Ardaşık şartlı rastgele alanlarla sekans etiketleme

Bilgin, Metin

Ardaşık şartlı rastgele alanlarla sekans etiketleme

Bilgin, Metin

URI: http://dspace.yildiz.edu.tr/xmlui/handle/1/13146

Tarih: 2015

Özet:

Sekans etiketleme bir giriş dizisine karşılık bir çıkış dizisinin üretimidir. Giriş ve çıkış dizisinin içeriklerine göre doğal dil işlemenin birçok konusu (varlık isim tanıma, makine çevirisi, morfolojik analiz, cümleleri öğelerine ayırma vb.) sekans etiketleme olarak tanımlanabilir. Cümle analizi ve cümleden bir anlam çıkarılması, doğal dil işlemenin ana konularından biridir. Eğer ilgili cümlenin söylemek istediği gerçek anlam çıkartılabilirse bu cümle makineler tarafından eyleme dönüştürülebilir, bir dilden başka bir dile çeviri yapılabilir ya da cümleden duygusal bir anlam çıkartılması sağlanabilir. Bağlılık ayrıştırması, bir cümle içerisindeki sözcükler arasındaki ilişkilerin ve ilişki türlerinin belirlenmesidir ve bir cümlenin anlamsal analizinin yapılabilmesi için şarttır. Bağlılık ayrıştırması sekans etiketleme problemi olarak tanımlandığında iki çıkış dizisinin (ilişki türü, ilişkili kelime) birden üretilmesi gerekmektedir. Bir cümlenin çözümlenmesi, ilgili dilin cümle yapısına bağlıdır. Türkçe, bitişken ve cümle içi öğe dizilişleri serbest bir dildir. Bu nedenle diğer dil ailelerine göre çözümlemesi daha zor bir dildir. Literatürde Türkçe ile ilgili yapılan çalışmalar mevcut olmasına rağmen ağırlıklı olarak İngilizce için gerçekleştirilmiş çalışmalar bulunmaktadır. Türkçe için yapılan çalışmalarda, Destek Vektör Makineleri (Support Vector Machine) tabanlı bir yapı kullanan Malt Parser ile belirli bir doğruluk oranlarına erişilmiştir. Diğer diller için yapılan çalışmalar incelendiğinde bu başarının artırılması için yeni hipotezler üretilmesi ve bunların denenmesi gereği açıktır. Bizim önerimiz, özellikle sekans etiketleme problemlerinin çözümünde sıklıkla kullanılan Şartlı Rastgele Alanların bağlılık ayrıştırması problemi içinde kullanılabilir olduğudur. Ancak Şartlı Rastgele Alanlar tek çıkış üreten bir yöntemdir. Bu zorluğu aşabilmek için iki çıkışlı (Bağlılık Türü ve Bağlanılan Kelime) bir problem olan Bağlılık Ayrıştırması iki parçaya bölünerek çözülmüştür. Ardından elde edilen sonuçlar birleştirilerek sistemin çıktısı olarak verilmiştir. Türkçe için gerçekleştirilen çalışma sonuçları ile literatürdeki sonuçlar karşılaştırıldığında daha yüksek bir başarı oranına ulaşıldığı görülmüştür. Türkçe dışındaki İsveç Dili, Danimarka Dili, Hollanda Dili ve Portekiz dili için de önerdiğimiz yöntem denenmiştir. İlişki türünü belirlemede literatürdeki çalışmaların başarıları aşılmıştır. İlişkili kelimeyi belirleme de ise daha kötü bir performans sergilenmiştir. Buna, Türkçe dışındaki bu dillerin cümle içi bağlılık yapılarının çok daha değişken olmasının sebep olduğu görülmüştür. Gelecek çalışma olarak geliştirilen yöntemin diğer dillerdeki performansını arttırmak için daha dinamik bir yapının geliştirilmesi düşünülmektedir.