Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi

Diri, Banu

dc.contributor.advisor	Prof. Dr. M. Yahya Karslıgil
dc.contributor.author	Diri, Banu
dc.date.accessioned	2018-07-17T11:38:56Z
dc.date.available	2018-07-17T11:38:56Z
dc.date.issued	1999
dc.identifier.uri	http://localhost:6060/xmlui/handle/1/1288
dc.description	Tez (Doktora) - Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 1999
dc.description.abstract	Bu doktora çalışmasında veri sıkıştırma konusunda yapılan diğer çalışmalardan farklı olarak, Türkçe metinlerin biçimbilimsel (morfolojik) olarak incelenmesi yapılmış ve bu inceleme sonucunda elde edilen gövde-kök, hece ve eklere ait istatistiksel verilere göre, yeni bir veri sıkıştırma yöntemi geliştirilmiştir. Sistemin başarımı ve çalışması değişik Türkçe metinlere uygulanarak değerlendirilmiştir. Geliştirilen sistemin en önemli özelliği, var olan sıkıştırma yöntemlerinden farklı olarak, sıkıştırılacak veriyi ikili bilgi yapısında değil, Türkçe dilinin yapısına uygun şekilde hece, gövde-kök ve eklerine ayırarak değerlendirmesidir. Geliştirilen bu sıkıştırma yönteminde Huffman kodlama ağacı temel alınıp ilk olarak kelimenin heceleri, ikinci olarak kelimenin kök ve ekleri, son olarak da kelimenin alınabilen en uzun ilk hecesi ve ekleri için üç ayrı statik şablon oluşturulup, Türkçe bir metnin kayıpsız geri dönüşümü sağlanmıştır. Sıkıştırma verimindeki başarıyı daha da arttırmak amacıyla kelimenin gövde-kök ve ekleri için iki ayrı sözlük kullanarak dinamik Huffman kodlaması gerçekleştirilmiştir. Ayrıca kod çözme işleminde ihtiyaç duyulan Huffman ağaç yapısına ait bilginin, sıkıştırılan metnin önüne konan başlık (header) alanında tuttuğu yer, bu doktora çalışması kapsamında geliştirilen bir yöntem ile n elemanlı bir Huffman ağacının (2n-2) adet bit ile ifade edilmesi sağlanmış olup, sıkıştırma veriminde %1.5'luk bir artış elde edilmiştir. Veri sıkıştırma tekniklerinin test edilmesinde kullanılan Galgary Corpus ve Catenbury Corpus'a uygun olarak 1 4 adet Türkçe metinden oluşan bir test kümesi oluşturulmuş ve sistem başarımı bu test kümesi üzerinde incelenerek değerlendirilmiştir. Türkçe metinler üzerinde yapılan analiz sonucunda, Türkçe bir metin içerisinde geçen kelime kullanım sıklıklarının Zipf kanununa uyum gösterdiği de belirlenmiş ve kullanım sıklıklarına göre matematiksel bir model kurulmuştur.
dc.subject	Veri sıkıştırma
dc.subject	Huffman kodlaması
dc.subject	Zipf kanunu
dc.subject	Türkçe'nin biçimbilimsel analizi
dc.title	Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi
dc.type	Tez