Nepřátelské vzory pro modely rozpoznávání řeči
Adversarial Examples for Speech Recognition Models
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202375Identifikátory
SIS: 269001
Kolekce
- Kvalifikační práce [11982]
Autor
Vedoucí práce
Oponent práce
Neruda, Roman
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra teoretické informatiky a matematické logiky
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
Nepřátelské vzory|Rozpoznávání řeči|UI pro tvorbu nepřátelských vzorůKlíčová slova (anglicky)
Adversarial examples|Speech recognition|UI for creation of adversarial examplesTato práce se zabývá nepřátelskými vzory pro modely rozpoznávání řeči. Modely rozpoznávání řeči jsou v dnešní době oblíbené a jejich využití roste, zejména s rozšířením inteligentních mobilních zařízení. Technologie, jako je Siri Payment, umožňují provádět finanční transakce pomocí hlasových příkazů. Takové technologie ovšem přináší svá rizika. Útočník může vytvořit nepřátelský vzor, který oklame Siri a provede neoprávněnou transakci. Přestože téma nepřátelských vzorů pro tyto modely představuje obrovské riziko, stále existuje pouze omezené množství vědeckých studií zabývajících se touto problematikou. Tato práce se zaměřuje na různé typy útoků na modely rozpoznávání řeči, vytváří prostředí, které umožňuje snadné generování nepřátelských vzorů pro model Whisper, a snaží se navrhnout nový typ nepřátelského vzoru.
This thesis focuses on adversarial patterns for speech recognition models. Speech recognition models have become increasingly popular and are now appearing in various aspects of everyday life. Technologies such as Siri Payment enable financial transactions using voice commands. However, these technologies also introduce security risks. An attacker can create an adversarial pattern that deceives Siri into executing an unauthorized transaction. Despite the significant risks posed by adversarial patterns in these models, there are still only a limited number of scientific studies addressing this issue. This thesis examines various types of attacks on speech recognition models, develops an environment that facilitates the generation of adversarial patterns for the Whisper model, and attempts to propose a new type of adversarial pattern.
