N-grams in the speech of Czech and native speakers of English

Zvěřinová, Simona

N-gramy v mluveném projevu českých a rodilých mluvčích angličtiny

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (151.1Kb)

Permanent link

http://hdl.handle.net/20.500.11956/79338

Identifiers

Study Information System: 167908

Referee

Tichý, Ondřej

Faculty / Institute

Faculty of Arts

Discipline

English Language and Linguistics

Department

Department of the English Language and ELT Methodology

Date of defense

7. 9. 2016

Publisher

Univerzita Karlova, Filozofická fakulta

Language

English

Grade

Excellent

Keywords (Czech)

mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpus

Keywords (English)

spoken language, learner language, n-grams, n-gram analysis, recurrent word-combinations, lexical bundles, learner corpus

Diplomová práce se zabývá analýzou opakovaných slovních spojení v projevu pokročilých českých mluvčích angličtiny a rodilých mluvčích angličtiny. Data využitá v analýze jsou čerpána ze dvou korpusů, žákovského korpusu LINDSEI a korpusu rodilých mluvčích LOCNEC. Cílem práce je porovnat dvě skupiny mluvčích, odhalit rozdíly mezi jejich užíváním opakovaných slovních spojení a porovnat výsledky s předešlými pracemi zahrnujícími výzkum mluvčích jiných jazyků. Kvantitativní analýza je provedena na vzorku 50 mluvčích z každého korpusu a frekvenční data jsou užita k porovnání mluvčích na základě toho, kolik typů slovních spojení užívají a jak často. Kvalitativní analýza je provedena na menším vzorku 15 mluvčích z každého korpusu a určuje funkční rozdíly. Během analýzy jsou určeny čtyři kategorie slovních spojení. V závěru jsou kvantitativní i kvalitativní výsledky porovnány s předešlým výzkumem mluvčích jiných jazyků. Klíčová slova: mluvený jazyk, žákovský jazyk, n-gramy, n-gramová analýza, opakovaná slovní spojení, lexikální svazky, žákovský korpus

Abstract (English)

The diploma thesis is concerned with the analysis of recurrent word-combinations in the speech of advanced Czech speakers of English and native speakers of English. The data used for the analysis is extracted from two corpora, learner corpus LINDSEI and native speaker corpus LOCNEC. The aim of the thesis is to compare the two groups of speakers, determine differences in their use of recurrent word-combinations and compare the findings to previous studies involving speakers of different languages. The quantitative analysis is performed on a sample of 50 speakers from each corpus and the frequency data is used to compare the two groups as to the number of types of word-combinations they use and how frequently they do so. The qualitative analysis is performed on a sample of 15 speakers from each corpus to determine functional differences. Four categories of word-combinations are determined in the analysis. In the conclusion, the quantitative and qualitative findings are compared to previous research involving speakers of different languages. Keywords: spoken language, learner language, n-grams, n-gram analysis, recurrent word- combinations, lexical bundles, learner corpus

Citace dokumentu

Metadata

Show full item record