Yapay öğrenme algoritmalarını kandırmak

Gümüş, Fatma

Yapay öğrenme algoritmalarını kandırmak

Gümüş, Fatma

URI: http://dspace.yildiz.edu.tr/xmlui/handle/1/13178

Tarih: 2021

Özet:

Yapay öğrenme algoritmaları, yüksek doğrulukta sınıflandırma ve tanıma sistemlerinin geliştirilmesine olanak sunarak modern yaşantıda vazgeçilmesi zor uygulamaların bir parçası olmuştur. Ancak, sistem geliştirme ve dağıtım sürecinde ortaya çıkan güvenlik açıkları hizmete veya ürüne olan güveni etkileyebilir. Dahası, sistem çıktısının sağlık gibi insan hayatı ve toplum yaşantısı üzerinde geri dönülemeyecek etkilere yol açabileceği uygulama alanlarında oluşabilecek zarar büyüktür. Yapay öğrenme odaklı hizmet ve ürünlerin başarılı bir şekilde yürütülmesini sağlamak ve zarar verecek sonuçlardan korunmak için “güvenilir yapay öğrenme” konusunun araştırılması son derece önemlidir. Yapay öğrenme sistemlerini geliştirme aşamasında modeller sonuçların doğruluğu için optimize edilir. Yüksek doğrulukta sonuçlar elde etmek temel işlevsellik açısından model güvenilirliğini sağlarken dağıtım ortamlarında girdi üzerine yapılan müdahalelere karşı zafiyet oluşturabilir. Saldırgan, kurban modelin girdi-karar ilişkisini keşfedecek akıllı ve uyarlanabilir “girdi bozma” algoritmasıyla güvenilirlik ihlaline neden olur. Bu tez çalışmasında kara-kutu koşullarında bir güvenilirlik çerçevesi belirlenmiş, metin ve konuşma sınıflandırma modelleri için güvenilirlik ihlaline yol açan kaçınma saldırıları geliştirilmiştir. Yüksek doğrulukla çıktı üretilen girdi örnekleri bozulma algoritmaları ile kara-kutu model ortamında zararlı örneklere dönüştürülmüştür. Metin sınıflandırma modelleri için tasarlanan kutupluluk tabanlı küçük müdahalelerin, birbirinden çok farklı yapay öğrenme algoritmaları olan naïve Bayes ve BiLSTM modellerinin kandırılmasında oldukça etkili olduğu görülmüştür. Saldırının uygulanabilirliği gerçek bir kara-kutu olan IBM Watson doğal dil anlama servisi üzerinde doğrulanmıştır. Konuşma sınıflandırma sistemleri olarak öznitelik tabanlı çok katmanlı yapay sinir ağı ve ham sinyal tabanlı evrişimsel duygu tanıma modelleri için beyaz gürültü ve perde manipülasyonu ile zararlı örnekler üretilmiştir. Sinyal işleme yöntemleri ile ayrıntılı olarak incelenen sonuçlarda perde manipülasyonunun etkili bir saldırı yöntemi olduğu görülmüştür. Metin ve konuşma sınıflandırma saldırı deneylerinden elde edilen çıkarımlardan faydalanılarak iki kipli sınıflandırma modeline düzenlenen bütünleşik saldırıların kolektif modelin gücünü kırabildiği gösterilmiştir. Son olarak, sistem kurulumundan önce uygun önlemleri tasarlayarak kötü niyetli aktörlere karşı sınama aşamasında sisteme entegre edilmek üzere öneriler sunulmuştur. Tez çıktılarının kara-kutu metin ve konuşma sınıflandırıcıların da açık oluşturabilecek noktalarını göstererek daha gürbüz ve güvenilir sistemlerin geliştirilmesinde literatüre katkı sağlaması dileğimizdir.