Özet:
Günümüzde teknolojinin katkısıyla veri miktarı çok artmıştır dolayısıyla doğru orantılı olarak doküman sayısındaki artış da ivme kazanmıştır. Bu denli bir artış bilgiye ulaşımı zorlaştırır veya bilginin gözden kaçmasına sebep olabilir. Bu tür problemleri çözmek için metin özetleme sistemleri kullanılabilir. Metin özetleme verilen metindeki ana fikri koruyarak onun kısaltılması işlemidir. Genellikle çıkarıma ya da soyutlamaya dayalı olmak üzere iki çeşit sistem üzerinde çalışma yapılır. Soyutlamaya dayalı özetleme derin bir doğal dil işleme gerektirdiğinden yapılan çalışmaların da çoğu çıkarıma dayalı sistemler içindir. Çıkarıma dayalı özetlemede ana metinden cümleler olduğu gibi seçilerek çıkartılır. Burada önemli olan en fazla bilgiyi içeren cümleyi te olması için seçmektir. Çıkarıma dayalı özetlemelerde de anahtar olan nokta cümle seçim aşamasıdır. Cümle seçmek için önerilen birçok yöntem vardır, kelime frekansı kullanan yöntemler, cümle kümeleme, çizge tabanlı puanlama yöntemleri, makine öğrenmesi metotları vb. üstünde çalışılmış yöntemlerin arasındadır. Çizge metotları metin özetleme sistemlerinde çokça kullanılan bir yöntemdir. Çünkü çizge olarak yapılan temsil verinin daha farklı bir şekilde yorumlanmasına yardımcı olduğundan diğer yöntemler ile kolay bir şekilde ortaya çıkamayacak özellikleri ortaya koyabilir. Bu çalışma kapsamında da çizge tabanlı metin özetleme üstünde araştırma yapılmıştır. Araştırma kapsamında performansı ispatlanmış olan "TextRank" yöntemi kullanılmıştır. Bu yöntem ağ sayfalarının puanlamasının yapıldığı "PageRank" yönteminden esinlenilerek ortaya konulmuştur. Ağ sayfalarını önem derecesine göre puanlayabilmek için sayfaların birbirlerine vermiş olduğu linkleri kullanarak hesaplama yapar. Metin özetleme sisteminde de bu yöntemi kullanabilmek için cümleler arası ilişki tanımlanması gerekmektedir. Bu çalışma kapsamında 4 farklı ilişkilendirme yönteminin "TextRank" yöntemine olan etkisi araştırılmıştır. Deneysel çalışmalar DUC 2002 ve CAST veri seti kullanarak yapılmıştır. DUC veri setiyle yapılan testlerde en iyi sonucu içerik çakışması, CAST veri setinde ise NGD vermiştir. Bu çalışmaya ilave olarak daha önce yapılmamış bir sistem geliştirilmiştir. Bu sistem hiyerarşik birleştirici kümeleme ve "TextRank" yöntemleri kullanarak elde edilmiştir. Önerilen yeni yöntemde cümleler belli bir kritere göre kümelenmiştir, kümelerden cümle seçebilmek için "TextRank" uygulanmıştır. Yeni yöntemin deneysel çalışmaları, bir önceki çalışmadaki gibi DUC 2002 ve CAST veri setiyle yapılmıştır, böylece "TextRank" ile kıyaslama imkanı elde edilmiştir. Yapılan çalışmalara göre DUC 2002 kullanıldığında önerilen sistemin daha performanslı çalıştığı tespit edilmiştir. CAST veri setinde ise 4 farklı ilişkilendirme yönteminden 2 yöntemi geçtiği, diğer 2 yöntemle de arasındaki farkın az olduğu tespit edilmiştir. Dolayısıyla önerilen yeni yöntem farklı metin türlerine göre de başarılı performans gösterebilmektedir.