Prozodické frázování a melodická kontura otázek v českých Text-to-Speech syntézách
Prosodic Phrasing and Interrogative Melodic Contour in Czech Text-to-Speech Syntheses
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/207204Identifikátory
SIS: 281407
Kolekce
- Kvalifikační práce [25216]
Autor
Vedoucí práce
Oponent práce
Paillereau, Nikola
Fakulta / součást
Filozofická fakulta
Obor
Fonetika
Katedra / ústav / klinika
Fonetický ústav
Datum obhajoby
11. 2. 2026
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
text-to-speech|prozodie|prozodická fráze|intonace|neurální hlasy v češtiněKlíčová slova (anglicky)
text-to-speech|prosody|prosodic phrase|intonation|neural voices in CzechNedávný vývoj v oblasti řečové syntézy vedl k výraznému zlepšení v přirozenosti projevu systémů TTS (text-to-speech), přetrvávají však problémy v oblasti modelování prozodie, které mohou mít dopady na kognitivní zpracování řeči. Tato diplomová práce se zabývá prozodickými tendencemi u systémů text-to-speech a u lidské čtené řeči se zaměřením na prozodické frázování a intonační kontury otázek. Nahrávky byly anotovány v programu Praat a byly z nich extrahovány akustické parametry zahrnující konturu základní frekvence (f0), počet slabik a strukturu prozodických předělů. Výsledky ukázaly silnější závislost syntetické řeči na interpunkci textu při realizaci prozodického frázování a rozdíly v intonačních vzorcích napříč typy otázek. Percepční hodnocení provedené skupinou posluchačů dále prokázalo, že syntetická řeč byla spolehlivě rozpoznána a hodnocena jako méně přirozená, zejména v případech, kdy se její prozodické vlastnosti odlišovaly od prozodie lidské řeči. Tyto výsledky poukazují na omezení současných přístupů k modelování prozodie v češtině a zdůrazňují význam kontextového zohlednění a vyšší variability trénovacích dat u neuronových systémů syntézy řeči. Klíčová slova: text-to-speech, prozodie, prozodická fráze, intonace, neurální hlasy v češtině
Recent advances in synthetic speech have substantially improved the naturalness of TTS (text-to-speech) systems, however, challenges regarding prosody modelling persist, potentially impacting cognitive speech processing. This thesis investigates prosodic tendencies between neural text-to-speech systems and human read speech, focusing on prosodic phrasing and intonation contour in questions. The recordings were annotated in Praat and acoustic parameters including f0 contour, number of syllables, and prosodic boundary structure were extracted. The results revealed stronger dependence of neural TTS speech on textual punctuation for prosodic phrasing, as well as differences in intonation patterns across question types. A perceptual evaluation conducted with human listeners showed that synthetic speech was reliably recognized and rated as less natural, particularly when its prosodic patterns diverged from those observed in human speech. These findings highlight limitations in current prosody modelling for Czech language and underscore the importance of context evaluation and greater variability in training data for neural speech synthesis systems. Keywords: text-to-speech, prosody, prosodic phrase, intonation, neural voices in Czech
