Abstract:
Bilgisayarların insan hayatına girmesiyle karşılaşılan güvenlik problemlerinin
başında siber tehditler yer almaktadır ve bu çalışmada özellikle en yaygın siber
tehditlerden biri olan oltalama saldırıları ele alınmıştır. E-posta ya da SMS gibi çeşitli
iletişim kanalları ile başlayan oltalama saldırıları çoğunlukla kullanıcıların
bilgilerini çalmak amacıyla tasarlanmış oltalama internet sitelerinde devam
etmektedir. Kullanıcı eğitimi, kara liste kullanımı gibi önleyici çözümler saldırıları
engellemeye yeterli olmamaktadır ve saldırıların yol açtığı finansal kayıplar günden
güne artmaktadır. Bu doğrultuda oltalama internet sitelerini gerçek zamanlı tespit
edebilen yazılım sistemleri geliştirilmektedir. Bu projede sırasıyla Makine
Öğrenmesi ve Derin Öğrenme teknikleri kullanılarak oltalama internet sitelerinin
tespit edilmesi hedeflenmiştir. Oltalama saldırılarının başarılı bir şekilde
sınıflandırılabilmesi için URL, metin veya görsel bazlı yaklaşımlar
kullanılabilmektedir. Bu çalışmada içerik-tabanlı yaklaşım benimsenmiştir. İlk
aşamada içerik-tabanlı olanlar önceliklendirilerek literatürdeki oltalama tespit
çalışmaları araştırılmış ve içlerinden yedi adet içerik-tabanlı çalışma ele alınmıştır.
Bu çalışmalardaki 168 eşsiz özelliğin kullanım sıklığı ölçülmüş ve “Gizlenmiş Etiket,
Pop-up” sayısı gibi içerik-tabanlı 48 özellik seçilmiştir. Ayrıca veri setindeki
örnekler analiz edilerek daha önce literatürde görülmemiş olan 9 içerik-tabanlı
v
özellik daha eklenmiştir. Toplamda 57 özellik hem analiz yöntemleri hem de Scikitlearn kütüphanesindeki fonksiyonlar yardımıyla modele olan etkilerine göre
sıralanmıştır. Python, TensorFlow ve BeautifulSoup gibi araçlar kullanılarak veri
setinde yer alan oltalama ve meşru internet sitesi içeriklerinin özellikleri
çıkarılmıştır. Yedi farklı Makine Öğrenmesi sınıflandırma algoritmasıyla oluşturulan
modeller için karışıklık matrisleri elde edilmiştir. En başarılı Makine Öğrenmesi
algoritması %97’nin üzerinde doğruluk ve %3’ün altında Yanlış Pozitif Oranı ile
Rastgele Orman algoritması olmuştur. Devamında Yinelenen Sinir Ağları, Çekişmeli
Üretken Ağ Modelleri gibi Derin Öğrenme teknikleri ile çeşitli sınıflandırma
modelleri denenmiştir. Farklı aktivasyon fonksiyonları, katman tipleri ve
parametreler kullanılarak yapılan deneysel çalışmalar sonucunda Makine
Öğrenmesi algoritmalarından daha başarılı oltalama internet sitesin tespit edebilen
Derin Öğrenme modelleri elde edilmiştir. Gelecekteki çalışmalarda içerik tabanlı
özelliklerin artırılması, evrimsel algoritmalarla hiper-parametre optimizasyonu ve
hibrit yaklaşımların kullanılması ile sınıflandırma modellerinin başarısı artırılabilir.