Adversarial examples generation for deep neural networks
Generování adversariáních vzorů pro hluboké neuronové sítě
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/101259Identifiers
Study Information System: 201964
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Kratochvíl, Miroslav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
6. 9. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
strojové učení, adversariální vzory, evoluční algoritmy, hluboké učeníKeywords (English)
machine learning, adversarial examples, evolutionary algorithms, deep learningModely strojového učení vykazují náchylnost k útokům za použití adversariálních vzorů, tedy uměle připravených vstupů s cílem zmást model. Předpokládaná práce si dává za cíl prozkoumat metody generování těchto vzorů v případě black-box útoku vedeného proti hlubokým neuronovým sítím určených pro klasifikaci obrazových dat. Posoudili jsme úspěšnost metod používajících zástupné (surrogate) modely a navrhli jsme vlastní řešení pro účely adversariálního útoku, založené na genetických algoritmech. Úspěšnost zkoumaných metod jsme ověřili provedením několika experimentů na datasetu Fashion MNIST. Empiricky bylo ověřeno, že námi navrhované řešení vykazuje skvělé výsledky, zejména v případě necíleného útoku na residuální konvoluční sítě.
Machine learning models exhibit vulnerability to adversarial examples i.e., artificially created inputs that become misinterpreted. The goal of this work is to explore black-box adversarial attacks on deep networks performing image classification. The role of surrogate machine learning models for adversarial attacks is studied, and a special version of a genetic algorithm for generating adversarial examples is proposed. The efficiency of attacks is validated by a multitude of experiments with the Fashion MNIST data set. The experimental results verify the usability of our approach with surprisingly good performance in several cases, such as non-targeted attack on residual networks.