The least squares (LS) regression estimator can be very sensitive in the presence of
multicollinearity among predictors and outliers in the data. As a solution, we introduce a
new robust version of Liu estimator. Although the proposed estimator is useful for low
dimensional data, there are some restrictions of it for high-dimensional data, namely some
calculation problems. Respecting this situation, a new robust Liu-type estimator with
similar idea is introduced for high-dimensional data. By considering weights, also the
resulting estimators are highly robust, but also the estimations of the biasing parameters
are robustified.
The main focus of this thesis is to provide a family to literature which is able to deal with
multicollinearity among predictors and outliers in the data, particularly high-dimensional
data. Concerning improving interpretibility and increasing the model predictive ability in
high-dimensional data, variable selection has attracted much research interest. Modern
regularization methods have become a popular choice because they perform intrinsic
variable selection and parameter estimation simultaneously. However, the estimation
procedure becomes more difficult and challenging task when the data suffer from outliers.
As a solution, recently, researchers started to improve robust versions of those regualarization
methods. With this aim, fully robust versions of the elastic net estimator are introduced for
linear regression. Conserning the binary response case, the idea is extended for logistic
regression. The algorithms to compute the newly proposed estimators are based on the
idea of repeatedly applying the non-robust classical estimators to data subsets only. It is
shown how outlier-free subsets can be identified efficiently, and how appropriate tuning
parameters for the elastic net penalties can be selected for corresponding model. A final
reweighting steps are thought to improve the efficiency of the estimators.
Simulation studies compare with non-robust and other competing robust estimators and
reveal the superiority of the newly proposed methods. This is also supported by a reasonable
computation time. Additionaly, some real data examples show the advantages of the
proposed estimators.
Veri kümesi sapan değerler içerdiğinde ve açıklayıcı değişkenler arasında çoklu iç ilişki
bulunduğunda, En Küçük Kareler (EKK) tahmin edicisi çok hassas olabilmektedir. Çözüm
olarak, Liu tahmin edicisinin yeni bir robust (dirençli, sağlam) versiyonunu takdim
etmekteyiz. Önerilen bu tahmin edici küçük boyutlu veri kümeleri için kullanışlı olmasına
rağmen, çok boyutlu veri kümeleri için bazı sınırlamalara, yani bazı hesaplama problemlerine,
sahiptir. Bu durumu göz önüne alarak, çok boyutlu veri kümeleri için benzer bir fikirle yeni
bir robust Liu-tip tahmin edici önermekteyiz. Gözlemler ağırlıklandırılarak, yalnızca elde
edilen bu tahmin edicilerin sapan değerlere dirençli olması sağlanmamış, aynı zamanda
yanlılık parametrelerinin tahmin edicileri de robust hale getirilmiştir.
Bu tezdeki temel amacımız verilerdeki (özellikle çok boyutlu verilerdeki) sapan değerler
ve açıklayıcı değişkenler arasındaki çoklu iç ilişki problemini çözmek için yeni bir tahmin
edici ailesini literatüre kazandırmaktır. Çok boyutlu veri kümelerinde modelin tahmin
yeteneğini artırmak ve yorumlamayı kolaylaştırmak hususları göz önüne alındığında,
değişken seçimi konusu araştırmacıların yoğun ilgisini cezbetmektedir. Modern düzenleme
yöntemleri aynı anda hem değişken seçimi hem de parametre tahminine imkan verdiği
için tercih edilir hale gelmiştir. Ancak veriler sapan değerlerden zarar gördüğünde, tahmin
prosedürü daha zor bir hale gelmektedir. Çözüm olarak, araştırmacılar son zamanlarda bu
düzenleme yöntemlerinin robust versiyonlarını geliştirmeye başlamışlardır. Bu amaçla,
lineer regresyon için elastik net tahmin edicisinin bütünüyle robust bir versionunu takdim
etmekteyiz. Yanıt değişkeninin iki kategorili olduğu durum göz önüne alınarak, önerilen bu
yöntem lojistik regresyon için genişletilmiştir. Önerilen yeni tahmin edicileri hesaplamak
için verilen algoritmalar, robust olmayan klasik tahmin edicilerin verilerin sadece alt
kümelerine tekrar tekrar uygulanması üzerine inşa edilmiştir. Sapan değerlerden ayıklanmış
alt kümelerin nasıl belirlenebileceği ve karşılık gelen model için elastik net cezasına ait
yanlılık parametrelerinin nasıl uygun bir şekilde seçilebileceği gösterilmiştir. Son olarak,
tahmin edicilerin etkinliğini arttırmak için yeniden ağırlıklandırma adımı kullanılmıştır.
Simülasyon çalışmaları robust olmayan tahmin edicilerle ve alternatif robust tahmin
edicilerle, önerilen tahmin edicilerin karşılaştırılmasını yapmaktadır ve önerilen tahmin
edicilerin üstünlüğünü ortaya koymaktadır. Bu durum, önerilen tahmin edicinin makul bir
hesaplama süresine sahip olduğu gösterilerek de desteklenmiştir. Ek olarak, bazı gerçek
veri kümeleri üzerinde önerilen tahmin edicilerin avantajları gösterilmektedir.