Prozodické frázování a melodická kontura otázek v českých Text-to-Speech syntézách

Hertlová, Adéla

Prosodic Phrasing and Interrogative Melodic Contour in Czech Text-to-Speech Syntheses

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (288.9Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/207204

Identifikátory

SIS: 281407

Oponent práce

Paillereau, Nikola

Fakulta / součást

Filozofická fakulta

Obor

Fonetika

Katedra / ústav / klinika

Fonetický ústav

Datum obhajoby

11. 2. 2026

Nakladatel

Univerzita Karlova, Filozofická fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

text-to-speech|prozodie|prozodická fráze|intonace|neurální hlasy v češtině

Klíčová slova (anglicky)

text-to-speech|prosody|prosodic phrase|intonation|neural voices in Czech

Nedávný vývoj v oblasti řečové syntézy vedl k výraznému zlepšení v přirozenosti projevu systémů TTS (text-to-speech), přetrvávají však problémy v oblasti modelování prozodie, které mohou mít dopady na kognitivní zpracování řeči. Tato diplomová práce se zabývá prozodickými tendencemi u systémů text-to-speech a u lidské čtené řeči se zaměřením na prozodické frázování a intonační kontury otázek. Nahrávky byly anotovány v programu Praat a byly z nich extrahovány akustické parametry zahrnující konturu základní frekvence (f0), počet slabik a strukturu prozodických předělů. Výsledky ukázaly silnější závislost syntetické řeči na interpunkci textu při realizaci prozodického frázování a rozdíly v intonačních vzorcích napříč typy otázek. Percepční hodnocení provedené skupinou posluchačů dále prokázalo, že syntetická řeč byla spolehlivě rozpoznána a hodnocena jako méně přirozená, zejména v případech, kdy se její prozodické vlastnosti odlišovaly od prozodie lidské řeči. Tyto výsledky poukazují na omezení současných přístupů k modelování prozodie v češtině a zdůrazňují význam kontextového zohlednění a vyšší variability trénovacích dat u neuronových systémů syntézy řeči. Klíčová slova: text-to-speech, prozodie, prozodická fráze, intonace, neurální hlasy v češtině

Abstrakt (anglicky)

Recent advances in synthetic speech have substantially improved the naturalness of TTS (text-to-speech) systems, however, challenges regarding prosody modelling persist, potentially impacting cognitive speech processing. This thesis investigates prosodic tendencies between neural text-to-speech systems and human read speech, focusing on prosodic phrasing and intonation contour in questions. The recordings were annotated in Praat and acoustic parameters including f0 contour, number of syllables, and prosodic boundary structure were extracted. The results revealed stronger dependence of neural TTS speech on textual punctuation for prosodic phrasing, as well as differences in intonation patterns across question types. A perceptual evaluation conducted with human listeners showed that synthetic speech was reliably recognized and rated as less natural, particularly when its prosodic patterns diverged from those observed in human speech. These findings highlight limitations in current prosody modelling for Czech language and underscore the importance of context evaluation and greater variability in training data for neural speech synthesis systems. Keywords: text-to-speech, prosody, prosodic phrase, intonation, neural voices in Czech

Citace dokumentu

Metadata

Zobrazit celý záznam