Adversarial examples generation for deep neural networks
Generování adversariáních vzorů pro hluboké neuronové sítě
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/101259Identifikátory
SIS: 201964
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Kratochvíl, Miroslav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
6. 9. 2018
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
strojové učení, adversariální vzory, evoluční algoritmy, hluboké učeníKlíčová slova (anglicky)
machine learning, adversarial examples, evolutionary algorithms, deep learningModely strojového učení vykazují náchylnost k útokům za použití adversariálních vzorů, tedy uměle připravených vstupů s cílem zmást model. Předpokládaná práce si dává za cíl prozkoumat metody generování těchto vzorů v případě black-box útoku vedeného proti hlubokým neuronovým sítím určených pro klasifikaci obrazových dat. Posoudili jsme úspěšnost metod používajících zástupné (surrogate) modely a navrhli jsme vlastní řešení pro účely adversariálního útoku, založené na genetických algoritmech. Úspěšnost zkoumaných metod jsme ověřili provedením několika experimentů na datasetu Fashion MNIST. Empiricky bylo ověřeno, že námi navrhované řešení vykazuje skvělé výsledky, zejména v případě necíleného útoku na residuální konvoluční sítě.
Machine learning models exhibit vulnerability to adversarial examples i.e., artificially created inputs that become misinterpreted. The goal of this work is to explore black-box adversarial attacks on deep networks performing image classification. The role of surrogate machine learning models for adversarial attacks is studied, and a special version of a genetic algorithm for generating adversarial examples is proposed. The efficiency of attacks is validated by a multitude of experiments with the Fashion MNIST data set. The experimental results verify the usability of our approach with surprisingly good performance in several cases, such as non-targeted attack on residual networks.
