Türkçe twitter'da soru algılama

Özger, Zeynep Banu

Yıldız Teknik Üniversitesi Açık Arşivi
→
Tezler
→
Fen Bilimleri Enstitüsü
→
Fen Bilimleri Enstitüsü Yüksek Lisans Tezleri
→
Bilgisayar Mühendisliği
→
Öğe Göster

dc.contributor.advisor	Doç. Dr. Banu Diri
dc.contributor.author	Özger, Zeynep Banu
dc.date.accessioned	2018-07-24T11:29:51Z
dc.date.available	2018-07-24T11:29:51Z
dc.date.issued	2014
dc.identifier.uri	http://localhost:6060/xmlui/handle/1/7364
dc.description	Tez (Yüksek Lisans) - Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014
dc.description.abstract	Twitter gibi mikro-blog servislerinin kullanımının son yıllarda katlanarak arttığı görülmektedir. Her gün tvit adı verilen, 140 karakterden oluşan, kullanıcıların günlük aktiviteleri, görüşleri ve ilgi alanlarından oluşan milyonlarca mesaj gönderilmektedir. Bununla birlikte Twitter, kullanıcılara birbirlerine doğrudan mesaj göndermek yoluyla kendisini takip edenler ile bir sosyal ağ kurma imkânı da sağlamaktadır. Günümüzde kullanıcılar her yerden erişebildikleri için sosyal medya ağlarını bilgi paylaşmak ve sorularına cevap alabilmek için de kullanmaktadırlar. Kullanıcıların Twitter üzerinde oluşturduğu büyük miktardaki ilişkisel ve metinsel veri, araştırmacıları bu alanda çalışmalar yapmaya teşvik etmektedir. Soru algılama Doğal Dil İşleme' nin bilgi çıkarımı alanının bir alt dalıdır. Dilin yapısal kurallarına uyan veya uymayan derlemlerden soru içeren cümleleri tespit etmeyi amaçlar. Soru algılama ile ilgili yapılan ilk çalışmalar kurallı metinler üzerinde olup İnternetin yaygınlaşması ile birlikte forum siteleri gibi düzensiz verilere yönelmiştir. Çalışmalar genellikle, derlemin yazıldığı dile bağlı kural tabanlı olarak tasarlanmış olup eğitim aşamasında çeşitli makine öğrenmesi yöntemlerinden yararlanılmıştır. Tez kapsamında Türkçe tvitlerden oluşan bir veri seti için, Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiş bir soru algılama sistemi geliştirilmiştir. Çalışma genel olarak dört adımdan oluşmaktadır. İlk olarak Türkçe tvitleri içeren bir veri seti oluşturulmuş ve bir ön-işleme metodu ile tvitler retvit, kullanıcı adı gibi sistem için anlamlı olmayan veriden arındırılmıştır. Çalışmanın ikinci aşamasında, veri setinden kural tabanlı bir yöntem ile soru içermeye aday tvitler belirlenmiştir. Ardından Türkçe için soru kalıpları tanımlanarak, Şartlı Rastgele Alanlar metodu ile soru olmaya aday tvitlerden soru içerenler tespit edilmiştir. Çalışmanın son aşamasında ise veri setindeki yedi farklı soru türünden birini algılamaya yönelik bir sistem yine Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiştir. Performans değerlendirme sonuçlarına göre, örüntüleri desteklemek için tanımlanan küçük boyuttaki sözlüklerin başarıyı artırdığı gözlemlenmiştir. Ayrıca, özellik olarak tanımlanan örüntülerin hassaslaştırılması, soruların tespiti aşamasındaki başarıyı artırırken, tvitlerin kuralsız veri olmasından dolayı soru olmayan tvitlerin soru olarak etiketlenmesindeki hata oranını artırmaktadır. Bu nedenle, örüntüler her iki taraftaki hatayı dengede tutacak şekilde tanımlanmıştır.
dc.subject	Soru algılama
dc.subject	Doğal dil işleme
dc.subject	Şartlı rastgele alanlar
dc.subject	Twitter
dc.subject	Sosyal ağlar
dc.title	Türkçe twitter'da soru algılama
dc.type	Tez