Nepřátelské vzory pro modely rozpoznávání řeči
Adversarial Examples for Speech Recognition Models
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/202375Identifiers
Study Information System: 269001
Collections
- Kvalifikační práce [12069]
Author
Advisor
Referee
Neruda, Roman
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
4. 9. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
Nepřátelské vzory|Rozpoznávání řeči|UI pro tvorbu nepřátelských vzorůKeywords (English)
Adversarial examples|Speech recognition|UI for creation of adversarial examplesTato práce se zabývá nepřátelskými vzory pro modely rozpoznávání řeči. Modely rozpoznávání řeči jsou v dnešní době oblíbené a jejich využití roste, zejména s rozšířením inteligentních mobilních zařízení. Technologie, jako je Siri Payment, umožňují provádět finanční transakce pomocí hlasových příkazů. Takové technologie ovšem přináší svá rizika. Útočník může vytvořit nepřátelský vzor, který oklame Siri a provede neoprávněnou transakci. Přestože téma nepřátelských vzorů pro tyto modely představuje obrovské riziko, stále existuje pouze omezené množství vědeckých studií zabývajících se touto problematikou. Tato práce se zaměřuje na různé typy útoků na modely rozpoznávání řeči, vytváří prostředí, které umožňuje snadné generování nepřátelských vzorů pro model Whisper, a snaží se navrhnout nový typ nepřátelského vzoru.
This thesis focuses on adversarial patterns for speech recognition models. Speech recognition models have become increasingly popular and are now appearing in various aspects of everyday life. Technologies such as Siri Payment enable financial transactions using voice commands. However, these technologies also introduce security risks. An attacker can create an adversarial pattern that deceives Siri into executing an unauthorized transaction. Despite the significant risks posed by adversarial patterns in these models, there are still only a limited number of scientific studies addressing this issue. This thesis examines various types of attacks on speech recognition models, develops an environment that facilitates the generation of adversarial patterns for the Whisper model, and attempts to propose a new type of adversarial pattern.
