Construction and performance analysis of locally adaptive base and ensemble learners

Bulut, Faruk

Construction and performance analysis of locally adaptive base and ensemble learners

Bulut, Faruk

URI: http://dspace.yildiz.edu.tr/xmlui/handle/1/13144

Tarih: 2015

Özet:

In this study, construction and performance analysis of locally adaptive base and ensemble learners have been proposed by using Meta and Ensemble Learning techniques. The characteristics and meta-features of the discretized sub regions in a dataset have been analyzed for the purpose of better learning performance. A detailed performance analysis of a local base learner over any type of dataset is firstly performed in order to understand the reasons of both failure and success in classification. Additionally, the discrete sub regions are learned by using the Mixture of Experts model to enhance the overall prediction accuracy. Furthermore, a localized lazy base learner using a dynamic parameter creator mechanism is established to gain better performance. Firstly, prediction of the performance of a local base learner (e.g., decision tree) is proposed by using Meta Learning methods. We have selected some datasets and some extracted geometrical complexity measures from the datasets so as to use in Meta Learning. The extracted features and the real accuracy rates of these classifiers have been accepted as attributes and class labels respectively, and they are placed into the Meta Learning dataset. With this training set, it becomes possible to predict the accuracy of a decision tree on upcoming datasets. Moreover, by using the new meta-learning dataset, a feasible linear regression model has been built for the purpose of predicting the performance of a decision tree classifier. As a consequence, some meaningful reasons have been determined why decision trees outperform or fail on any dataset. Secondly, a new approach in Mixture of Experts using hard clustering techniques is presented for accurate prediction and classification. Mixture of Experts, as one of the popular ensemble methods developed in recent years, is used to have higher prediction performance in classification and regression problems. In this technique, a dataset is divided into sub regions through a soft clustering procedure. An expert for each region is assigned and trained with the corresponding data points. The decisions of the experts are combined by a gate function in order to predict the class label of a query point. In contrast to the traditional Mixture of Experts method, in this study, a dataset is divided into regions by a hard clustering technique and the class prediction method is performed by four different types of proposed gate functions: cooperating, competitive, commensurative, and Borda count. In the experiments, better performances have been obtained with the proposed cooperating gate function due to its mechanism that gives different weights to the experts in the network. Finally, a locally adaptive parameter selection mechanism for nearest neighbor classifiers using clustering methods is suggested for more accuracy. The k Nearest Neighbors classification technique has a worldwide fame due to its simplicity, effectiveness and robustness. As a lazy learner, k Nearest Neighbors used in numerous fields is a versatile algorithm. In this classifier, the k parameter is generally chosen by the user and the optimal k value is found by experiments. The chosen constant k value is used during the whole classification phase. The same k value used for each test sample during the validation step might decrease the overall prediction performance. The optimal k value for each test data point should vary in order to have more accurate predictions. In this study, a dynamic k value selection method for each instance is proposed. This improved classification method employs a simple clustering procedure. In the experiments, more accurate results have been found. The reasons of success have also been understood and presented.

Metin sınıflandırma, belgelerin otomatik organizasyonu için artan talepten ötürü hem akademik hem de ticari platformlarda önemli bir rol oynamaktadır. Destek Vektör Makineleri (SVM) gibi çekirdek temelli sınıflandırma algoritmaları metin madenciliği görevinde son derece popüler hale gelmişlerdir. Bu durum esas olarak SVM’in çeşitli uygulama alanları üzerindeki nispeten yüksek sınıflandırma doğruluğunun yanı sıra yüksek boyutlu ve seyrek veriyi işlemeyebilme yeteneklerinden de kaynaklanmaktadır. Son zamanlarda, metin sınıflandırmasında ontolojiler ve derlem temelli istatistiki bilgi gibi arka plan bilgi birikiminden yararlanmaya yönelik artan bir ilgi söz konusudur. Doğrusal çekirdek gibi standart çekirdek fonksiyonları yerine bu arka plan bilgisinin avantajlarından faydalanan özelleştirilmiş çekirdek fonksiyonlarını kullanarak SVM’in metin sınıflandırma alanındaki performansını arttırmanın mümkün olduğu gösterilmiştir. Buna dayanarak, SVM için eğiticili ve yarı eğiticili anlambilimsel düzeltme çekirdeklerinde, daha yüksek mertebeden yolların, terimlerin sınıf temelli anlamsal değerlerinin ve sınıf temelli ağırlık değerlerinin yeteneklerini keşfetmek amacıyla çeşitli yöntemler geliştirilmiştir. Bu çalışmada Yüksek Mertebeden Anlambilimsel Çekirdek (HOSK), Özyineli Yüksek Mertebeden Anlambilimsel Çekirdek (IHOSK) ve Yüksek Dereceden Terim Çekirdeği (HOTK) gibi dolaylı anlambilimsel ilişkileri çıkartan ve kullanan derlem temelli çeşitli anlambilimsel çekirdekler önerilmiştir. HOSK terimlerin belgeler arasındaki yüksek mertebeden yolları kullanır. HOSK’ta belgelerin özellik vektörleri arasındaki basit iç çarpım sonucunda birinci dereceden bir matris (F) elde edilir. HOSK belgeler, bu özellik vektörleri arasında basit nokta ürünün birinci dereceden bir matris (F) elde edilir. İkinci dereceden eş-oluşum matrisi (S), F’nin kendisi ile çarpılması sonucu oluşturulur. S, HOSK’un giriş uzayından özellik uzayına dönüşümündeki çekirdek matrisi olarak kullanılmaktadır. Deneysel sonuçlar HOSK’un doğrusal çekirdek üzerinde doğruluk açısından bir iyileştirme sağladığını göstermektedir. HOSK’un daha gelişmiş bir modeli debelgeler ve terimler arasındaki yüksek dereceli yolları yinelemeli bir şekilde kullanan IHOSK’tur. Belgeler ve terimler arasındaki anlambilimsel ilişki; belgeler arasındaki benzerlik matrisini terimler arasındaki benzerlik matrisini kullanarak ve terimler arasındaki benzerlik matrisini de belgeler arasındaki benzerlik matrisini kullanarak hesaplayan ve χ-Sim olarak adlandırılan özyineli bir teknikten uyarlanmıştır. Belge benzerlik matrisi, SR (belgeler arası benzerlik matrisi) ve SC (terimler arası benzerlik matrisi) kullanılarak özyineli bir şekilde üretilir. Deney sonuçları sınıflandırma performansının doğrusal çekirdeğe kıyasla daha da arttığını göstermektedir. Bir sonraki çalışmamızda, daha az karmaşıklıkta yüksek-mertebeli çekirdekler düşünülmüştür; HOTK sadece terimler arasındaki yüksek-mertebeli yollara bağlıdır. HOTK’deki anlambilimsel çekirdek dönüşümü sadece eğitim kümesindeki terimler arası yüksek mertebeli eş-oluşumlar kullanılarak yapılır. HOTK, IHOSK’dan daha basittir ve aynı zamanda daha az hesaplama kaynakları gerektirir. Bu çalışmada, SVM için anlam bilimsel çekirdek inşa eden CMK olarak adlandırılan yeni bir yaklaşım önerilmektedir. CMK’yı başlangıçtaki etiketsiz veriyi etiketlendiren yeni bir yöntem eklentisi ile yarı-eğiticili öğrenmeye uyguladık ve bunu ILBOM olarak adlandırdık. Önerilen yaklaşımlar bir belge içindeki BOW ile temsil edilen terimlerin ağırlıklarını, terimlerin sınıf temelli anlamsal değerlerini kullanarak düzeltmektedir. Bu da sınıflar üzerinde ayırt ediciliği olmayan genel amaçlı kullanılan terimlerin önemini azaltırken, önemli ya da başka bir deyişle anlamlı terimlerin önemini artırmaktadır. Bu yaklaşımlar, eşanlamlı terimler ya da sınıfla yakından ilgili terimler gibi sınıfa özgü kavramların önemini arttırarak BOW’un dezavantajlarını azaltmaktadır. Terimlerin sınıflar bağlamındaki anlamsal değerleri Gestalt teoriden Helmholtz esasına göre hesaplanmaktadır. Deneysel sonuçlarımız CMK ve ILBOM’un doğrusal çekirdekten daha üstün bir sınıflandırma keskinliği sağladığını göstermektedir. Ayrıca Sınıf Ağırlıklı Çekirdek (CWK) olarak adlandırılan başka bir yaklaşım da bu çalışmada önerilmiştir. Bu yöntem CMK’ya benzemektedir ancak; CWK özellikle hesaplama zamanı konusunda bir gelişme sağlamaktadır. Temelde bu sınıf temelli ağırlıklandırma her sınıf için terimleri önemlilik durumlarına göre gruplandırır. Bu nedenle bu sınıf temelli ağırlıklandırma belgelerin gösterimini düzeltir ki, bu da terimler arasına sınıf temelli bağımlılıklar getirerek vektör uzayı modelinin dikliğini değiştirir. Sonuç olarak, istisnai durumlarda, hiç ortak terim içermedikleri halde eğer belirli bir sınıf için benzer şekilde ağırlıklandırılmış iki belge benzer görülebilir. Bu tezin temel katkısı standart çekirdeklerden çok daha iyi sınıflandırma doğruluğu sergileyebilen çözümler geliştirilmesi olarak düşünülebilir. Önerilen yaklaşımların ikinci katkısı bu modellerin WordNet gibi dış anlambilimsel kaynaklardan bağımsız olmaları ve bu sebepten ötürü herhangi bir dile uygulanabilir olmalarıdır. Bizim yöntemlerimizin diğer bir katkısı da eğiticisiz anlambilimsel benzerlik ölçümleri gibi diğer terim temelli anlambilimsel benzerlik yöntemleri ile kolayca kombine edilebilir bir yapıya temel oluşturmalarıdır. Yöntemlerimizin özellikle sınıf bazlı yöntemlerimizi başka bir avantajı da, bunların yürütüm süresi ile ilgilidir. Bizim bilgimize göre, yüksek dereceli yollar ve terimlerin sınıf temelli değerleri SVM’in dönüşüm aşamasında ilk kez kullanılmaktadır ve metin sınıflandırma için bir çekirdekte terimlerin anlambilimsel olarak düzeltilmesi üzerine önemli bir bakış açısı kazandırabilir.