Adversarial Examples in Machine Learning
Matoucí vzory ve strojovém učení
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/99233Identifiers
Study Information System: 189573
Collections
- Kvalifikační práce [10066]
Author
Advisor
Referee
Neruda, Roman
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
14. 6. 2018
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
matoucí vzory, strojové učení, neuronové sítěKeywords (English)
adversarial examples, machine learning, neural networksHluboké neuronové sítě v poslední době dosahují vysoké úspěšnosti na mnoha úlohách, zejména klasifikaci obrázků. Tyto modely jsou ovšem snadno ovlivni- telné lehce pozměněnými vstupy zvanými matoucí vzory. Matoucí vzory mohou značně snižovat úspěšnost a tak ohrozit systémy, které modely strojového učení využívají. V této práci přinášíme rešerši literatury o matoucích vzorech. Dále navrhujeme nové obrany proti matoucím vzorům: síť kombinující RBF jednotky s konvolucí, kterou testujeme na datové sadě MNIST a která má lepší úspěšnost než CNN trénovaná pomocí matoucích vzorů, a diskretizaci vstupního prostoru, kterou testujeme na datových sadách MNIST a ImageNet a dosahujeme slibných výsledků. Na závěr zkoumáme možnost generování matoucích vzorů bez přístupu ke vstupu, který má být pozměněn. 1
Deep neural networks have been recently achieving high accuracy on many important tasks, most notably image classification. However, these models are not robust to slightly perturbed inputs known as adversarial examples. These can severely decrease the accuracy and thus endanger systems where such machine learning models are employed. We present a review of adversarial examples literature. Then we propose new defenses against adversarial examples: a network combining RBF units with convolution, which we evaluate on MNIST and get better accuracy than with an adversarially trained CNN, and input space discretization, which we evaluate on MNIST and ImageNet and obtain promising results. Finally, we explore a way of generating adversarial perturbation without access to the input to be perturbed. 1