Tagging a spoken learner corpus
Značkování žákovského korpusu mluvené angličtiny
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/68515Identifiers
Study Information System: 148736
Collections
- Kvalifikační práce [23975]
Author
Advisor
Consultant
Šebesta, Karel
Referee
Tichý, Ondřej
Faculty / Institute
Faculty of Arts
Discipline
English and American Studies
Department
Department of the English Language and ELT Methodology
Date of defense
10. 9. 2014
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
mluvený jazyk, žákovský jazyk, žákovské korpusy, chybová analýza, značkování chybKeywords (English)
spoken language, learner language, learner corpora, error analysis, error taggingCílem této práce je navrhnout systém značkování žákovského korpusu mluvené angličtiny, který by se kromě chyb zaměřoval i na značkování specifik mluveného jazyka. V teoretické části proto práce stručně nastiňuje žákovský jazyk jako takový, vznik a vývoj žákovských korpusů v posledních 20 letech a jak klasickou, tak počítačem podporovanou chybovou analýzu. Kromě toho jsou v teoretické části popsána specifika mluveného jazyka, na která se pak soustřeďuje část praktická. Jako základ pro navrhovaný systém značkování je použit Lovaňský značkovací systém, který je ale určený pro žákovský korpus psaného jazyka. Na základě analýzy přepisů 20 nahrávek z české části žákovského korpusu LINDSEI jsou navrženy úpravy kategorií stávajících a kategorie nové, které by měly lépe zachytit prvky typické pro mluvený jazyk a tak usnadnit jeho analýzu po označkování celého korpusu.
The aim of the thesis is to propose a tagging system for a learner corpus of spoken English which would, apart from tagging errors, focus also on the features specific for spoken language. Theoretical part, therefore, introduces basic concepts including learner language, the development of learner corpora in the last 20 years and both classical and computer-aided error analysis. Features typical of spoken language are described in the theoretical part as well since these are the focus of the research part of the thesis. The Louvain tagging system used for error-tagging of a leaner corpus of written language is used as the basis for the tagging system proposed in this thesis. Based on the analysis of 20 transcriptions taken from the Czech part of spoken learner corpus LINDSEI, modifications of the categories taken from the Louvain error-tagging system are proposed and new categories necessary for a better description of spoken language are introduced. The tagging system proposed in this thesis should make further analysis of the tagged corpus easier.