YTÜ DSpace Kurumsal Arşivi

Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi

Basit öğe kaydını göster

dc.contributor.advisor Prof. Dr. M. Yahya Karslıgil
dc.contributor.author Diri, Banu
dc.date.accessioned 2018-07-17T11:38:56Z
dc.date.available 2018-07-17T11:38:56Z
dc.date.issued 1999
dc.identifier.uri http://localhost:6060/xmlui/handle/1/1288
dc.description Tez (Doktora) - Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 1999
dc.description.abstract Bu doktora çalışmasında veri sıkıştırma konusunda yapılan diğer çalışmalardan farklı olarak, Türkçe metinlerin biçimbilimsel (morfolojik) olarak incelenmesi yapılmış ve bu inceleme sonucunda elde edilen gövde-kök, hece ve eklere ait istatistiksel verilere göre, yeni bir veri sıkıştırma yöntemi geliştirilmiştir. Sistemin başarımı ve çalışması değişik Türkçe metinlere uygulanarak değerlendirilmiştir. Geliştirilen sistemin en önemli özelliği, var olan sıkıştırma yöntemlerinden farklı olarak, sıkıştırılacak veriyi ikili bilgi yapısında değil, Türkçe dilinin yapısına uygun şekilde hece, gövde-kök ve eklerine ayırarak değerlendirmesidir. Geliştirilen bu sıkıştırma yönteminde Huffman kodlama ağacı temel alınıp ilk olarak kelimenin heceleri, ikinci olarak kelimenin kök ve ekleri, son olarak da kelimenin alınabilen en uzun ilk hecesi ve ekleri için üç ayrı statik şablon oluşturulup, Türkçe bir metnin kayıpsız geri dönüşümü sağlanmıştır. Sıkıştırma verimindeki başarıyı daha da arttırmak amacıyla kelimenin gövde-kök ve ekleri için iki ayrı sözlük kullanarak dinamik Huffman kodlaması gerçekleştirilmiştir. Ayrıca kod çözme işleminde ihtiyaç duyulan Huffman ağaç yapısına ait bilginin, sıkıştırılan metnin önüne konan başlık (header) alanında tuttuğu yer, bu doktora çalışması kapsamında geliştirilen bir yöntem ile n elemanlı bir Huffman ağacının (2n-2) adet bit ile ifade edilmesi sağlanmış olup, sıkıştırma veriminde %1.5'luk bir artış elde edilmiştir. Veri sıkıştırma tekniklerinin test edilmesinde kullanılan Galgary Corpus ve Catenbury Corpus'a uygun olarak 1 4 adet Türkçe metinden oluşan bir test kümesi oluşturulmuş ve sistem başarımı bu test kümesi üzerinde incelenerek değerlendirilmiştir. Türkçe metinler üzerinde yapılan analiz sonucunda, Türkçe bir metin içerisinde geçen kelime kullanım sıklıklarının Zipf kanununa uyum gösterdiği de belirlenmiş ve kullanım sıklıklarına göre matematiksel bir model kurulmuştur.
dc.subject Veri sıkıştırma
dc.subject Huffman kodlaması
dc.subject Zipf kanunu
dc.subject Türkçe'nin biçimbilimsel analizi
dc.title Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi
dc.type Tez


Bu öğenin dosyaları

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster