Automatický expresivní čtený projev
Automatický expresivní čtený projev
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/109102Identifiers
Study Information System: 208179
Collections
- Kvalifikační práce [11338]
Author
Advisor
Referee
Libovický, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Generativní modelování, prosodie, rozpoznávání řečiKeywords (English)
Generative modeling, prosody, speech recognitionExpresivní čtení je jedním ze způsobů verbálního projevu. Obvykle bývá čte- ným textem próza nebo poezie. Zatím málo prací se zabývalo tím, co ovlivňuje expresivitu a jestli se dá vygenerovat pomocí počítače. LibriSpeech je velkým korpusem čtené prózy a poezie, a umožňuje nám otestovat generování expre- sivního čtení pomocí metod strojového učení. Soustředili jsme se na poezii, neboť obvykle vyžaduje větší expresivitu. Implementovali jsme metody, které mohu být využity k natrénování dalších modelů i k vytvoření nových dat, která mohou být použita v našich metodách na trénování. Dále jsme vytvořili roz- šiřitelnou aplikaci, která dostane báseň, předpoví její expresivní čtení a toto čtení vizualizuje. Navíc ještě přehraje audio nahrávku vygenerovanou pomocí Text-To-Speech systému. 1
Expressive reading is one of possible oral presentations. The text being read is usually prose or poetry. Little has been done in research of what affects expressiveness and whether it can be generated by computers. LibriSpeech, a large scale corpus of read prose and poetry allows us to test generation of expressive reading using machine learning methods. We have focused on poetry as it is generally more expressive. We have prepared methods, that can be used to train more models as well as to prepare different data that could be fed in our learning methods. Moreover, we have developed an extendable application that takes a poem, predicts the reading, visualizes it and plays an audio record generated from the reading using a TTS system. 1