dc.description.abstract |
Twitter gibi mikro-blog servislerinin kullanımının son yıllarda katlanarak arttığı görülmektedir. Her gün tvit adı verilen, 140 karakterden oluşan, kullanıcıların günlük aktiviteleri, görüşleri ve ilgi alanlarından oluşan milyonlarca mesaj gönderilmektedir. Bununla birlikte Twitter, kullanıcılara birbirlerine doğrudan mesaj göndermek yoluyla kendisini takip edenler ile bir sosyal ağ kurma imkânı da sağlamaktadır. Günümüzde kullanıcılar her yerden erişebildikleri için sosyal medya ağlarını bilgi paylaşmak ve sorularına cevap alabilmek için de kullanmaktadırlar. Kullanıcıların Twitter üzerinde oluşturduğu büyük miktardaki ilişkisel ve metinsel veri, araştırmacıları bu alanda çalışmalar yapmaya teşvik etmektedir. Soru algılama Doğal Dil İşleme' nin bilgi çıkarımı alanının bir alt dalıdır. Dilin yapısal kurallarına uyan veya uymayan derlemlerden soru içeren cümleleri tespit etmeyi amaçlar. Soru algılama ile ilgili yapılan ilk çalışmalar kurallı metinler üzerinde olup İnternetin yaygınlaşması ile birlikte forum siteleri gibi düzensiz verilere yönelmiştir. Çalışmalar genellikle, derlemin yazıldığı dile bağlı kural tabanlı olarak tasarlanmış olup eğitim aşamasında çeşitli makine öğrenmesi yöntemlerinden yararlanılmıştır. Tez kapsamında Türkçe tvitlerden oluşan bir veri seti için, Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiş bir soru algılama sistemi geliştirilmiştir. Çalışma genel olarak dört adımdan oluşmaktadır. İlk olarak Türkçe tvitleri içeren bir veri seti oluşturulmuş ve bir ön-işleme metodu ile tvitler retvit, kullanıcı adı gibi sistem için anlamlı olmayan veriden arındırılmıştır. Çalışmanın ikinci aşamasında, veri setinden kural tabanlı bir yöntem ile soru içermeye aday tvitler belirlenmiştir. Ardından Türkçe için soru kalıpları tanımlanarak, Şartlı Rastgele Alanlar metodu ile soru olmaya aday tvitlerden soru içerenler tespit edilmiştir. Çalışmanın son aşamasında ise veri setindeki yedi farklı soru türünden birini algılamaya yönelik bir sistem yine Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiştir. Performans değerlendirme sonuçlarına göre, örüntüleri desteklemek için tanımlanan küçük boyuttaki sözlüklerin başarıyı artırdığı gözlemlenmiştir. Ayrıca, özellik olarak tanımlanan örüntülerin hassaslaştırılması, soruların tespiti aşamasındaki başarıyı artırırken, tvitlerin kuralsız veri olmasından dolayı soru olmayan tvitlerin soru olarak etiketlenmesindeki hata oranını artırmaktadır. Bu nedenle, örüntüler her iki taraftaki hatayı dengede tutacak şekilde tanımlanmıştır. |
|