Özet:
Yapay öğrenme algoritmaları, yüksek doğrulukta sınıflandırma ve tanıma
sistemlerinin geliştirilmesine olanak sunarak modern yaşantıda vazgeçilmesi zor
uygulamaların bir parçası olmuştur. Ancak, sistem geliştirme ve dağıtım sürecinde
ortaya çıkan güvenlik açıkları hizmete veya ürüne olan güveni etkileyebilir. Dahası,
sistem çıktısının sağlık gibi insan hayatı ve toplum yaşantısı üzerinde geri
dönülemeyecek etkilere yol açabileceği uygulama alanlarında oluşabilecek zarar
büyüktür. Yapay öğrenme odaklı hizmet ve ürünlerin başarılı bir şekilde
yürütülmesini sağlamak ve zarar verecek sonuçlardan korunmak için “güvenilir
yapay öğrenme” konusunun araştırılması son derece önemlidir.
Yapay öğrenme sistemlerini geliştirme aşamasında modeller sonuçların doğruluğu
için optimize edilir. Yüksek doğrulukta sonuçlar elde etmek temel işlevsellik
açısından model güvenilirliğini sağlarken dağıtım ortamlarında girdi üzerine
yapılan müdahalelere karşı zafiyet oluşturabilir. Saldırgan, kurban modelin girdi-karar ilişkisini keşfedecek akıllı ve uyarlanabilir “girdi bozma” algoritmasıyla
güvenilirlik ihlaline neden olur.
Bu tez çalışmasında kara-kutu koşullarında bir güvenilirlik çerçevesi belirlenmiş,
metin ve konuşma sınıflandırma modelleri için güvenilirlik ihlaline yol açan
kaçınma saldırıları geliştirilmiştir. Yüksek doğrulukla çıktı üretilen girdi örnekleri
bozulma algoritmaları ile kara-kutu model ortamında zararlı örneklere
dönüştürülmüştür.
Metin sınıflandırma modelleri için tasarlanan kutupluluk tabanlı küçük
müdahalelerin, birbirinden çok farklı yapay öğrenme algoritmaları olan naïve Bayes
ve BiLSTM modellerinin kandırılmasında oldukça etkili olduğu görülmüştür.
Saldırının uygulanabilirliği gerçek bir kara-kutu olan IBM Watson doğal dil anlama
servisi üzerinde doğrulanmıştır. Konuşma sınıflandırma sistemleri olarak öznitelik
tabanlı çok katmanlı yapay sinir ağı ve ham sinyal tabanlı evrişimsel duygu tanıma
modelleri için beyaz gürültü ve perde manipülasyonu ile zararlı örnekler
üretilmiştir. Sinyal işleme yöntemleri ile ayrıntılı olarak incelenen sonuçlarda perde
manipülasyonunun etkili bir saldırı yöntemi olduğu görülmüştür. Metin ve konuşma
sınıflandırma saldırı deneylerinden elde edilen çıkarımlardan faydalanılarak iki kipli sınıflandırma modeline düzenlenen bütünleşik saldırıların kolektif modelin
gücünü kırabildiği gösterilmiştir. Son olarak, sistem kurulumundan önce uygun
önlemleri tasarlayarak kötü niyetli aktörlere karşı sınama aşamasında sisteme
entegre edilmek üzere öneriler sunulmuştur. Tez çıktılarının kara-kutu metin ve
konuşma sınıflandırıcıların da açık oluşturabilecek noktalarını göstererek daha
gürbüz ve güvenilir sistemlerin geliştirilmesinde literatüre katkı sağlaması
dileğimizdir.