dc.description.abstract |
Bilgisayalı Çeviri (BÇ) bir dilde yazılmış bir ifadenin başka bir dile bilgisayar tarafından otomatik olarak çevrilmesi işlemidir. BÇ konusunda yapılan çalışmalar 1950'lerin ilk yıllarında başlamıştır. İkinci Dünya Savaşı sonrası önemi arttığı düşünülen bu alana siyasal, sosyal ve ticari sebeplerden oldukça fazla yatırım yapılmış, birçok araştırmacı bu konuda çalışmıştır. Takip eden yıllarda ise yine birçok akademik ve ticari çevrelerde önemli çalışmalar yapılmasına, büyük bütçeler ayrılmasına rağmen beklentileri karşılayan sonuçlar alınamamış ve 1960'lı yılların ortalarından itibaren bu alana yapılan yatırımlar ve bu konuda çalışmalar azalmaya başlamıştır. BÇ ile ilgili olarak kalite, maliyet, öngörüler, beklentiler ve ihtiyaçlar konusunda çalışmalar yapan Automatic Language Processing Advisory Committee (ALPAC) kuruluşunun 1964 yılında yayınladığı olumsuz rapor sonrasında bu alanda motivasyon ve yatırım kaybı oluşmuştur. BÇ'nin ilk dönemi olarak görülen bu dönemde sistemler daha çok çeşitli dilbilgisel düzeylerde (biçimbilimsel, sözdizimsel, anlamsal) çalışan kural tabanlı sistemler olarak gerçekleştirilmiştir. 1990'lı yıllardan itibaren gelişen internet teknolojisinin etkisiyle öne çıkan istatiksel yöntemler, ses işleme, doğal dil işleme konularında da değerlendirilmeye başlanmıştır. IBM'in öncülüğünde yapılan İBÇ (İstatiksel Bilgisayarlı Çeviri) çalışmaları BÇ alanındaki duraksamayı ortadan kaldırmış, birçok araştırmacı gelişen bu yeni alanda çalışmalara başlamıştır. Yine 90'lı yıllardan sonra ortaya çıkan veriye dayalı diğer bir yöntem de örnek tabanlı BÇ yöntemidir. Günümüzde çeşitli kaynaklardan BÇ için veri elde etme nisbeten daha kolay olduğu için istatiksel yöntemlerin de katkısıyla BÇ çalışmaları belirli bir başarıya ulaşmış ve çeşitli alanlardaki uygulamaları giderek artmıştır. Fakat bir BÇ sisteminden beklenen özelliklerin hepsini birlikte başaran sistemler üzerine araştırma-geliştirme faaliyetleri hızla devam etmektedir. BÇ sisteminden beklenen bu özellikler: anlaşılır ve aslına uygun çeviri yapabilmesi, insan etkisi olmadan otomatik çeviri yapabilmesi ve belirli bir konuya bağlı olmadan genel amaçlı çeviri yapabilmesi olarak sıralanabilir. Örnek tabanlı ve istatiksel yöntemlerin eğitim için kullandığı verilerden en önemlisi paralel derlemlerdir. Birbirinin çevirisi olan metinlerden oluşan ve cümle seviyesinde hizalanmış olan paralel derlemler BÇ'nin yanı sıra sözcük belirsizliği giderme, bilgi erişimi gibi diğer doğal dil işleme alanlarında da kullanılmaktadır. Bu çalışmada BÇ tarihi, yöntemleri hakkında genel bilgiler toparlanılmış, İBÇ yöntemlerinin günümüzde geldiği nokta araştırılmıştır. Ayrıca, erişilebilir Türkçe-İngilizce paralel derlemler incelenmiş ve çeşitli kaynaklardan yeni paralel derlemler oluşturularak Türkçe-İngilizce paralel derlem sayısının artmasına katkıda bulunulmuştur. İngilizce'den Türkçe'ye istatistiksel BÇ sistemleri üzerinde paralel derlemin büyüklüğünün ve kalitesinin etkisi araştırılmıştır. Paralel cümle çiftlerinin kalitesininin otomatik ölçülebilmesi için cümle çiftlerinden çeşitli özellikler çıkaran makine öğrenmesi yöntemleri kullanılarak cümle çiftlerini kaliteli ve kalitesiz olarak sınıflandıran bir sınıflandırıcı geliştirilmiştir. Yapılan deneylerde elimizdeki paralel derlemlerden oluşturulan farklı boyutlarda paralel derlemlerle İBÇ sistemleri eğitilerek paralel derlemin büyüklüğünün etkisini araştırmak amacıyla başarıları karşılaştırılmıştır. Daha sonra paralel derlemin kalitesinin etkilerini gözlemleyebilmek için farklı boyutlardaki her bir derlemin sadece sınıflandırıcının kaliteli olarak işaretlediği örnekleri kullanarak İBÇ sistemleri eğitilmiştir. Paralel derlemin boyutu arttıkça daha yüksek başarılara ulaşıldığı gösterilirken, içerisinde hatalı veya kalitesiz örnekleri temizlenmiş daha az sayıda örnek içeren paralel derlemler ile aynı veya daha yüksek başarılara ulaşıldığı gösterilmiştir. Anahtar Kelimeler: Makine Öğrenmesi, Yapay Zeka, Doğal Dil İşleme, Makine Çevirisi, Bilgisayarlı Çeviri, İstatiksel Bilgisayarlı Çeviri, Paralel Derlem, Paralel Derlem Filtreleme, Örnek Seçimi |
|