Srovnání nejfrekventovanějších lemmat v psané a mluvené češtině
Comparison of the most frequent lemmas in written and spoken Czech
diploma thesis (DEFENDED)
Adam, Robert
Faculty of Arts
Faculty of Arts
Czech Language - Specialization Studies with double curriculum study General Linguistics
Institute of Czech Language and Theory of Communication
6. 2. 2023
6. 2. 2023
Univerzita Karlova, Filozofická fakulta
Keywords (Czech)
spoken language|written language|corpus-based research|frequency|lexical analysis
spoken language|written language|corpus-based research|frequency|lexical analysisDiplomová práce se zabývá 20 nejfrekventovanějšími lemmaty v psaném korpusu SYN2020 a v mluveném korpusu ORAL. Cílem práce je zjistit, jaké funkce a významy mají jednotlivá lemmata, a především prozkoumat, zda se tyto významy a funkce liší v mluvené a psané komunikaci. Potřebný materiál je získán z korpusu psané češtiny SYN2020 a z korpusu mluvené češtiny ORAL. Na náhodném vzorku z obou korpusů je provedena sémantická analýza zkoumaných lemmat. Výsledky porovnání 20 nejfrekventovanějších lemmat v psaném a mluveném korpusu ukazují, že nejfrekventovanějšími lemmaty v obou korpusech jsou výrazy s gramatickou funkcí, které se podílejí na výstavbě a organizaci textu. Tato lemmata mají často více významů. Z analýzy vyplývá, že nejfrekventovanějšími výrazy v korpusu SYN2020 jsou předložky a spojky, v korpusu ORAL zájmena a deiktické výrazy. Nejčastější výrazy v korpusu ORAL mají často také pragmatickou funkci, tyto výrazy je možné označit za diskurzní markery. Porovnáním nejfrekventovanějších lemmat lze sledovat odlišné charakteristiky psané a mluvené komunikace.
The diploma thesis deals with the 20 most frequent lemmas in the SYN2020 corpus of written Czech and the ORAL corpus of informal spoken Czech. The aim of this thesis is to find out what functions and meanings studied lemmas have and, above all, to investigate whether these meanings and functions differ in spoken and written communication. The data for the research were extracted from the SYN2020 corpus of written Czech and the ORAL corpus of informal spoken Czech. A semantic analysis of the lemmas is based on a random sample from both corpora. The results of the comparison of the 20 most frequent lemmas in the written and spoken corpora show that the most frequent lemmas in both corpora are expressions with a grammatical function, which are involved in the construction and organization of the text. These lemmas often have multiple meanings. The analysis shows that the most frequent expressions in the SYN2020 corpus are prepositions and conjunctions and in the ORAL corpus pronouns and deictic expressions. The most frequent expressions in the ORAL corpus often also have a pragmatic function. These expressions can be described as discourse markers. By comparing the most frequent lemmas we can observe different characteristics of written and spoken communication.