New Methods in Statistical Speech Recognition
Nové metody ve statistickém rozpoznávání řeči
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/41647Identifikátory
SIS: 40901
Kolekce
- Kvalifikační práce [11211]
Autor
Vedoucí práce
Oponent práce
Psutka, Josef
Černocký, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
26. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Název Práce: Nové metody ve statistickém rozpoznávání řeči Autor: David Klusáček Katedra: Ústav formální a aplikované lingvistiky, MFF UK Školitel: Prof. RNDr. Jan Hajič, Dr., ÚFAL. Abstrakt: Tato práce se pokouší identifikovat limity současných rozpoznávačů řeči a navrhnout metody jak jejich omezení překonat. Po historickém úvodu a popisu současného stavu je jako nejslabší článek řetězu prohlášen akustický front-end, zejména jeho činnost za zhoršených zvukových podmínek. Navrho- vané řešení, tzv. NUFIBA front-end, zahrnuje kompenzaci ozvěny, segmentaci zvuku na řečníka a pozadí, a průběžné sledování SNR, které v součinnosti s akustickým modelem zabraňuje lavinovému šíření chyb. Z důvodu nedostatku času jiz bohužel nedošlo k implementaci celého rozpoznávače řeči (i když ně- které části byly značně rozpracovány, například jazykový model založený na MMI třídách). Nové myšlenky tak byly vyzkoušeny pouze v jednodušším roz- poznávači fonémů. Klíčová slova: Automatické rozpoznávání řeči, souvislá řeč, NUFIBA front- end, Jazykový model, Sluchová dráha, MMI, Shlukování, Slepá dekonvoluce, Časové a frekvenční maskování, Potlačení ozvěny, Rozpoznávání fonémů.
Title: New Methods in Statistical Speech Recognition Author: David Klusáček Department: Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics in Prague, Malostranské náměstí 25, 118 00 Praha 1. Advisor: Prof. RNDr. Jan Hajič, Dr., Institute of Formal and Applied Linguistics. Abstract: This works aims to identify limits of contemporary speech rec- ognizers and tries to come up with methods that could push back the fron- tiers. After describing the state of the art, the weakest link of the chain has been identified in the acoustic front-end, especially when working in harsh acoustic conditions. NUFIBA front-end, the proposed solution, includes re- verb compensation and speaker/background segmentation as well as contin- uous SNR monitoring which, thru cooperation with acoustic model, hinders from avalanche spreading of recognition errors. Owing to the lack of time, only a phoneme recognizer was finally implemented, although large blocks of originally intended word-based continuous speech recognizer were implemented and tested (such as the MMI-class based language model).