Automatický expresivní čtený projev
Automatický expresivní čtený projev
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/109102Identifikátory
SIS: 208179
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Oponent práce
Libovický, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Generativní modelování, prosodie, rozpoznávání řečiKlíčová slova (anglicky)
Generative modeling, prosody, speech recognitionExpresivní čtení je jedním ze způsobů verbálního projevu. Obvykle bývá čte- ným textem próza nebo poezie. Zatím málo prací se zabývalo tím, co ovlivňuje expresivitu a jestli se dá vygenerovat pomocí počítače. LibriSpeech je velkým korpusem čtené prózy a poezie, a umožňuje nám otestovat generování expre- sivního čtení pomocí metod strojového učení. Soustředili jsme se na poezii, neboť obvykle vyžaduje větší expresivitu. Implementovali jsme metody, které mohu být využity k natrénování dalších modelů i k vytvoření nových dat, která mohou být použita v našich metodách na trénování. Dále jsme vytvořili roz- šiřitelnou aplikaci, která dostane báseň, předpoví její expresivní čtení a toto čtení vizualizuje. Navíc ještě přehraje audio nahrávku vygenerovanou pomocí Text-To-Speech systému. 1
Expressive reading is one of possible oral presentations. The text being read is usually prose or poetry. Little has been done in research of what affects expressiveness and whether it can be generated by computers. LibriSpeech, a large scale corpus of read prose and poetry allows us to test generation of expressive reading using machine learning methods. We have focused on poetry as it is generally more expressive. We have prepared methods, that can be used to train more models as well as to prepare different data that could be fed in our learning methods. Moreover, we have developed an extendable application that takes a poem, predicts the reading, visualizes it and plays an audio record generated from the reading using a TTS system. 1