Code Dictation Tool
Nástroj pro programování hlasem
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/193021Identifikátory
SIS: 271099
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Oponent práce
Javorský, Dávid
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
programování hlasem|asistenční technologies|strojové učení|automatický přepis řeči|diktování kódu|interaktivitaKlíčová slova (anglicky)
programming-by-voice|assistive technologies|machine learning|automatic speech transcription|code dictation|interactivitySystémy automatického rozpoznávání řeči (ASR) jsou významnou součástí dnešního uživatelského prostředí, protože hlas/zvuk je jedním z mála možných způsobů, jak se vyjádřit, a jejich použití by mohlo zpříjemnit nebo dokonce zrychlit interakci mezi lidmi a stroji. Tato práce pojednává o našem přístupu k implementaci nástroje pro diktování kódu jako rozšíření Visual Studio Code Extension s využitím modelu Whisper společnosti OpenAI jako ASR s dalším zpracováním rozpoznaných slov do kódu nebo akcí použitel- ných v editoru. S modelem Whisper jsme také experimentovali, abychom zjistili, zda lze zlepšit chybovost slov při diktování kódu nebo zda by model mohl generovat pužitelný kód zcela bez dalšího zpracování.
Automatic Speech Recognition (ASR) systems are a big part of today's user environ- ment since voice/audio is one of the few possible ways to express oneself, and using it could make the interaction between humans and machines more pleasant or even faster. This thesis discusses our approach to implementing a Code Dictation Tool as Visual Stu- dio Code Extension using OpenAI's Whisper model as ASR with additional processing of the recognised words into code or actions applicable in the editor. We also experimented with the Whisper model to see if the word error rate in the code dictation could be improved or if the model could generate ready-to-use code altogether without additional processing.