Tagging a spoken learner corpus
Značkování žákovského korpusu mluvené angličtiny
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/68515Identifikátory
SIS: 148736
Kolekce
- Kvalifikační práce [21700]
Autor
Vedoucí práce
Konzultant práce
Šebesta, Karel
Oponent práce
Tichý, Ondřej
Fakulta / součást
Filozofická fakulta
Obor
Anglistika - amerikanistika
Katedra / ústav / klinika
Ústav anglického jazyka a didaktiky
Datum obhajoby
10. 9. 2014
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
mluvený jazyk, žákovský jazyk, žákovské korpusy, chybová analýza, značkování chybKlíčová slova (anglicky)
spoken language, learner language, learner corpora, error analysis, error taggingCílem této práce je navrhnout systém značkování žákovského korpusu mluvené angličtiny, který by se kromě chyb zaměřoval i na značkování specifik mluveného jazyka. V teoretické části proto práce stručně nastiňuje žákovský jazyk jako takový, vznik a vývoj žákovských korpusů v posledních 20 letech a jak klasickou, tak počítačem podporovanou chybovou analýzu. Kromě toho jsou v teoretické části popsána specifika mluveného jazyka, na která se pak soustřeďuje část praktická. Jako základ pro navrhovaný systém značkování je použit Lovaňský značkovací systém, který je ale určený pro žákovský korpus psaného jazyka. Na základě analýzy přepisů 20 nahrávek z české části žákovského korpusu LINDSEI jsou navrženy úpravy kategorií stávajících a kategorie nové, které by měly lépe zachytit prvky typické pro mluvený jazyk a tak usnadnit jeho analýzu po označkování celého korpusu.
The aim of the thesis is to propose a tagging system for a learner corpus of spoken English which would, apart from tagging errors, focus also on the features specific for spoken language. Theoretical part, therefore, introduces basic concepts including learner language, the development of learner corpora in the last 20 years and both classical and computer-aided error analysis. Features typical of spoken language are described in the theoretical part as well since these are the focus of the research part of the thesis. The Louvain tagging system used for error-tagging of a leaner corpus of written language is used as the basis for the tagging system proposed in this thesis. Based on the analysis of 20 transcriptions taken from the Czech part of spoken learner corpus LINDSEI, modifications of the categories taken from the Louvain error-tagging system are proposed and new categories necessary for a better description of spoken language are introduced. The tagging system proposed in this thesis should make further analysis of the tagged corpus easier.