Show simple item record

Vícejazyčná syntéza řeči
dc.contributor.advisorDušek, Ondřej
dc.creatorNekvinda, Tomáš
dc.date.accessioned2020-07-29T09:47:25Z
dc.date.available2020-07-29T09:47:25Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/119461
dc.description.abstractThis work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder's flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech.en_US
dc.description.abstractTato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožˇuje efektivní sdílení informace mezi jazyky a že dle subjektivního hodnocení produkuje přirozenější řeč bez častých přeřeků a chyb ve výslovnosti.cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjecttext-to-speechen_US
dc.subjectspeech synthesisen_US
dc.subjectmultilingualityen_US
dc.subjectnatural language processingen_US
dc.subjectdeep learningen_US
dc.subjectsyntéza řečics_CZ
dc.subjectvícejazyčnostcs_CZ
dc.subjectzpracování přirozeného jazykacs_CZ
dc.subjecthluboké učenícs_CZ
dc.titleMultilingual speech synthesisen_US
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-07-08
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId222537
dc.title.translatedVícejazyčná syntéza řečics_CZ
dc.contributor.refereePeterek, Nino
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csTato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožˇuje efektivní sdílení informace mezi jazyky a že dle subjektivního hodnocení produkuje přirozenější řeč bez častých přeřeků a chyb ve výslovnosti.cs_CZ
uk.abstract.enThis work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder's flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV