Zobrazit minimální záznam

Efektivní neuronová syntéza řeči
dc.contributor.advisorDušek, Ondřej
dc.creatorVainer, Jan
dc.date.accessioned2020-10-12T11:23:56Z
dc.date.available2020-10-12T11:23:56Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/119487
dc.description.abstractModely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1cs_CZ
dc.description.abstractWhile recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The quality of samples synthesized by our model was rated significantly higher than baseline models. Our model can be efficiently trained on a single GPU and can run in real time even on a CPU. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectsyntéza řečics_CZ
dc.subjectzpracování přirozeného jazykacs_CZ
dc.subjecthluboké učenícs_CZ
dc.subjectspeech synthesisen_US
dc.subjecttext-to-speechen_US
dc.subjectnatural language processingen_US
dc.subjectdeep learningen_US
dc.titleEfficient neural speech synthesisen_US
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-07-08
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId222539
dc.title.translatedEfektivní neuronová syntéza řečics_CZ
dc.contributor.refereeHajič, Jan
dc.identifier.aleph002376237
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csModely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1cs_CZ
uk.abstract.enWhile recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The quality of samples synthesized by our model was rated significantly higher than baseline models. Our model can be efficiently trained on a single GPU and can run in real time even on a CPU. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
dc.identifier.lisID990023762370106986


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV