New technique for high dimensional data : robust linear regression using L1-penalized mm-estimation

Darwish, Kamal

New technique for high dimensional data : robust linear regression using L1-penalized mm-estimation

Darwish, Kamal

URI: http://dspace.yildiz.edu.tr/xmlui/handle/1/13869

Tarih: 2015

Özet:

Son yıllarda büyük veriler çerçevesinde kullanılan p tahmin edicinin (açıklayıcı değişkenli) n gözlem sayısından daha fazla olma durumunda olan modeller oldukça popüler oldular. Bu veri setleri iyi tahmin edilmiş modeller için iyi birer rekabet ortamı oluşturmaktadırlar. Bununla birlikte, veri setlerinde belirli miktarda sapan değerlerin mevcudiyeti ve dahi bazı veri setini bozucu (kontaminasyonlar) unsurların varlığı doğrusal lineer modellerin çözümünü zorlaştırmaktadırlar. Bu durumlarda model çözümleri için metodların seyrek ve robust (dayanıklı) olması istenir. Bu tezde, yeni bir tahmin metodu olarak MM tahmincisi ve L1- Penalized MM tahmincisi( MM-Lasso) kullanıldı. İleri sürülen tahmin edici, başlangıç tahmin edicisi olarak sparse LTS tahmin edicisi ile M tahmin edicilerini cezalandırarak seyrek model tahminlerini yüksek bozucu değerleri de kapsayarak iyi tahminler vermesi sağlandı. MM-Lasso C programlama dili ile yazıldı ve R paketi içerisinden de çalıştırılabilir özellik kazandırıldı. İleri sürdüğümüz modeli değerlendirmek için mevcut SimFrame R paketini geliştirdik, bu da istatistiksel olarak simülasyon çalışmaları için bir çerçeve oluşturdu. Üç değişik model geliştirilerek düşük, orta ve büyük boyutlu veriler elde edildi. Aynı zamanda simülasyon çalışmaları çerçevesinde Kirlenmiş veri oluşturabilmek için fonksiyon geliştirildi. Kaldıraç verilerinin varlığı halinde yapılan incelemelerde MM-Lasso tahmin edicisinin diğer rakiplerinden daha iyi bir performans sergilediği görülmektedir.