Abstract:
Web Sayfalarının Sınıflandırılması, her geçen gün daha da önem kazanan bir makine
öğrenmesi problemidir. Web sayfalarının kategorize edilmesi, verimli İnternet
kullanımı, spam filtreleme ve daha birçok uygulama alanı için faydalı bilgiler
sağlamaktadır. Milyonlarca web sitesi arasından kullanıcının aradığı konuyla ilgili
sonuçların hızlı bir şekilde bulunması, arama motorları için çözülmesi gereken bir
problemdir. Web sayfası sınıflandırma, zararlı içeriğe sahip web sayfalarının kullanıcı
tarafından görüntülenmeden önce engellenmesi ile siber güvenlik uygulamaları
tarafından da kullanılabilmektedir.
Web sayfası sınıflandırması, birçok farklı uygulama alanı için temel oluşturabilecek
faydalı bilgiler sağlayan bir Bilgi Çıkarımı (Information Extraction) uygulamasıdır. Bir
diğer uygulama alanına ise ağda anomali tespiti için kullanıcının internet kullanım
profilinin oluşturulması örnek olarak verilebilir.
Bu çalışmada, web sayfalarının sınıflandırılmasına yönelik bir sistem geliştirilmiştir.
Geliştirilen sistemde derin öğrenme tabanlı yaklaşımlar test edilmiş ve kullanılmıştır.
Web sayfalarının sınıflandırılabilmesi için bir web sayfasının içeriğinde yer alan meta
etiketler adı verilen başlık (title), açıklama (description) ve anahtar kelimeler
(keywords) gibi metinsel bilgiler kullanılmıştır.
xii
Yapılan çalışmanın testleri sırasında Yinelemeli Sinir Ağı (YiSA, Recurrent Neural
Networks) tabanlı derin öğrenme mimarisi kullanılmıştır. Bu derin öğrenme mimarisi
üzerinde bazı hiperparametre ayarlamaları gerçekleştirilerek performans analizi de
yapılmıştır. Ayrıca, geliştirilen sistemde Öğrenme Transferi denenmiştir. Öğrenme
Transferi, bir problemi çözmek için önceden eğitilmiş parametreler kullanılarak bir
makine öğrenmesi modeli oluşturma yaklaşımına verilen isimdir.
Elde edilen sonuçlara göre, Web sayfası sınıflandırma sisteminin başarı oranı yaklaşık
%85 olarak elde edilmiştir. Gerçekleştirilen testler, CPU ve GPU üzerinde çalıştırılmış
olup, bu iki farklı donanım üzerinde elde edilen çalışma sürelerine ilişkin performans
karşılaştırması da ayrıca yapılmıştır.Web Sayfalarının Sınıflandırılması, her geçen gün daha da önem kazanan bir makine
öğrenmesi problemidir. Web sayfalarının kategorize edilmesi, verimli İnternet
kullanımı, spam filtreleme ve daha birçok uygulama alanı için faydalı bilgiler
sağlamaktadır. Milyonlarca web sitesi arasından kullanıcının aradığı konuyla ilgili
sonuçların hızlı bir şekilde bulunması, arama motorları için çözülmesi gereken bir
problemdir. Web sayfası sınıflandırma, zararlı içeriğe sahip web sayfalarının kullanıcı
tarafından görüntülenmeden önce engellenmesi ile siber güvenlik uygulamaları
tarafından da kullanılabilmektedir.
Web sayfası sınıflandırması, birçok farklı uygulama alanı için temel oluşturabilecek
faydalı bilgiler sağlayan bir Bilgi Çıkarımı (Information Extraction) uygulamasıdır. Bir
diğer uygulama alanına ise ağda anomali tespiti için kullanıcının internet kullanım
profilinin oluşturulması örnek olarak verilebilir.
Bu çalışmada, web sayfalarının sınıflandırılmasına yönelik bir sistem geliştirilmiştir.
Geliştirilen sistemde derin öğrenme tabanlı yaklaşımlar test edilmiş ve kullanılmıştır.
Web sayfalarının sınıflandırılabilmesi için bir web sayfasının içeriğinde yer alan meta
etiketler adı verilen başlık (title), açıklama (description) ve anahtar kelimeler
(keywords) gibi metinsel bilgiler kullanılmıştır.
xii
Yapılan çalışmanın testleri sırasında Yinelemeli Sinir Ağı (YiSA, Recurrent Neural
Networks) tabanlı derin öğrenme mimarisi kullanılmıştır. Bu derin öğrenme mimarisi
üzerinde bazı hiperparametre ayarlamaları gerçekleştirilerek performans analizi de
yapılmıştır. Ayrıca, geliştirilen sistemde Öğrenme Transferi denenmiştir. Öğrenme
Transferi, bir problemi çözmek için önceden eğitilmiş parametreler kullanılarak bir
makine öğrenmesi modeli oluşturma yaklaşımına verilen isimdir.
Elde edilen sonuçlara göre, Web sayfası sınıflandırma sisteminin başarı oranı yaklaşık
%85 olarak elde edilmiştir. Gerçekleştirilen testler, CPU ve GPU üzerinde çalıştırılmış
olup, bu iki farklı donanım üzerinde elde edilen çalışma sürelerine ilişkin performans
karşılaştırması da ayrıca yapılmıştır.