Rozpoznávání řeči pomocí KALDI
Rozpoznávání řeči pomocí KALDI
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/66424Identifikátory
SIS: 119744
Katalog UK: 990017786090106986
Kolekce
- Kvalifikační práce [11981]
Autor
Vedoucí práce
Oponent práce
Peterek, Nino
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Teoretická informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
27. 5. 2014
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
ASR, rozpoznávání mluvené řeči, Kaldi, dialogový systémKlíčová slova (anglicky)
ASR, speech recognition, Kaldi, dialogue systemTématem této práce je implementace výkonného rozpoznávače v open-source systému trénování ASR Kaldi (http://kaldi.sourceforge.net/) pro dialogové systémy. Kaldi již obsahuje ASR dekodéry, které však nejsou vhodné pro dialogové systémy. Hlavními důvody jsou jejich malá optimalizace na rychlost a jejich velké zpoždění v generování výsledku po ukončení promluvy. Cílem této práce je proto vyvinutí real-time rozpoznávače pro dialogové systémy optimalizovaného na rychlost a minimalizujícího zpoždění. Zrychlení může být realizováno například pomocí multi-vláknového dekódování nebo s využitím grafických karet pro obecné výpočty. Součástí práce je také příprava akustického modelu a testování ve vyvíjeném dialogovém systému "Vystadial". Powered by TCPDF (www.tcpdf.org)
The topic of this thesis is to implement efficient decoder for speech recognition training system ASR Kaldi (http://kaldi.sourceforge.net/). Kaldi is already deployed with decoders, but they are not convenient for dialogue systems. The main goal of this thesis to develop a real time decoder for a dialogue system, which minimize latency and optimize speed. Methods used for speeding up the decoder are not limited to multi-threading decoding or usage of GPU cards for general computations. Part of this work is devoted to training an acoustic model and also testing it in the "Vystadial" dialogue system. Powered by TCPDF (www.tcpdf.org)
