Výslovnostní rysy češtiny - dialektová analýza
Pronunciation Features of Czech Language - Dialect Analysis
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/56065Identifikátory
SIS: 128995
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Korvas, Matěj
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 9. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
nářečí, výslovnostní analýza, zpracování zvukového signálu, on-line sběr zvukových datKlíčová slova (anglicky)
Dialects, Pronunciation Analysis, Audio-signal Processing, On-line Audio Data CollectingImplementovali jsme nástroj Výrče:SW pro neasistovaný sběr zvukových nahrávek s nastavitelnými nahrávacími scénáři, které umožňují také analýzu vytvořených dat a zobrazování výsledků. S pomocí vytvořeného nástroje jsme sesbírali Výrče:Korpus, převážně čtený korpus o 2376 nahrávkách od 34 mluvčích v celkové délce 7 hodin. Součástí korpusu jsou také vyplněné dotazníky mluvčích pro přesné určení dialektologické příslušnosti a spolehlivosti. Dostatek mluvčích pro nářeční analýzu pochází ze středočeské oblasti nářečí a ze slezské oblasti nářečí. Na těchto dvou nejpočetnějších skupinách v korpusu jsme natrénovali jednoduchý monofonémový rozpoznávač nářeční oblastí založený na skrytých Markovovských modelech. Powered by TCPDF (www.tcpdf.org)
We implemented Výrče:SW, a tool for collecting and analysing audio recordings without the necessity of supervisor's assistance. The tool allows creating a wide range of recording scenarios, including the possibility to analyse the recordings and show the results. Using the created tool, we collected Výrče:Korpus, a read audio corpus of 34 speakers and 2376 utterances of 7 hours in length. The corpus also includes questionnaires that provide information about the dialect reliability of speakers. Sufficient amounts of speakers for dialect analysis are from the Central Bohemian dialect area and Silesian dialect area. On the two selected groups, we trained a simple monophone dialect recogniser based on Hidden Markov Models. Powered by TCPDF (www.tcpdf.org)