N-grams in the speech of Czech and native speakers of English
N-gramy v mluveném projevu českých a rodilých mluvčích angličtiny
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/79338Identifiers
Study Information System: 167908
Collections
- Kvalifikační práce [23212]
Author
Advisor
Referee
Tichý, Ondřej
Faculty / Institute
Faculty of Arts
Discipline
English Language and Linguistics
Department
Department of the English Language and ELT Methodology
Date of defense
7. 9. 2016
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpusKeywords (English)
spoken language, learner language, n-grams, n-gram analysis, recurrent word-combinations, lexical bundles, learner corpusDiplomová práce se zabývá analýzou opakovaných slovních spojení v projevu pokročilých českých mluvčích angličtiny a rodilých mluvčích angličtiny. Data využitá v analýze jsou čerpána ze dvou korpusů, žákovského korpusu LINDSEI a korpusu rodilých mluvčích LOCNEC. Cílem práce je porovnat dvě skupiny mluvčích, odhalit rozdíly mezi jejich užíváním opakovaných slovních spojení a porovnat výsledky s předešlými pracemi zahrnujícími výzkum mluvčích jiných jazyků. Kvantitativní analýza je provedena na vzorku 50 mluvčích z každého korpusu a frekvenční data jsou užita k porovnání mluvčích na základě toho, kolik typů slovních spojení užívají a jak často. Kvalitativní analýza je provedena na menším vzorku 15 mluvčích z každého korpusu a určuje funkční rozdíly. Během analýzy jsou určeny čtyři kategorie slovních spojení. V závěru jsou kvantitativní i kvalitativní výsledky porovnány s předešlým výzkumem mluvčích jiných jazyků. Klíčová slova: mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpus
The diploma thesis is concerned with the analysis of recurrent word-combinations in the speech of advanced Czech speakers of English and native speakers of English. The data used for the analysis is extracted from two corpora, learner corpus LINDSEI and native speaker corpus LOCNEC. The aim of the thesis is to compare the two groups of speakers, determine differences in their use of recurrent word-combinations and compare the findings to previous studies involving speakers of different languages. The quantitative analysis is performed on a sample of 50 speakers from each corpus and the frequency data is used to compare the two groups as to the number of types of word-combinations they use and how frequently they do so. The qualitative analysis is performed on a sample of 15 speakers from each corpus to determine functional differences. Four categories of word-combinations are determined in the analysis. In the conclusion, the quantitative and qualitative findings are compared to previous research involving speakers of different languages. Keywords: spoken language, learner language, n-grams, n-gram analysis, recurrent word- combinations, lexical bundles, learner corpus