Tagging a spoken learner corpus

Gillová, Lucie

Značkování žákovského korpusu mluvené angličtiny

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.0Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/68515

Identifikátory

SIS: 148736

Katalog UK: 990018520270106986

Konzultant práce

Šebesta, Karel

Oponent práce

Tichý, Ondřej

Fakulta / součást

Filozofická fakulta

Obor

Anglistika - amerikanistika

Katedra / ústav / klinika

Ústav anglického jazyka a didaktiky

Datum obhajoby

10. 9. 2014

Nakladatel

Univerzita Karlova, Filozofická fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

mluvený jazyk, žákovský jazyk, žákovské korpusy, chybová analýza, značkování chyb

Klíčová slova (anglicky)

spoken language, learner language, learner corpora, error analysis, error tagging

Cílem této práce je navrhnout systém značkování žákovského korpusu mluvené angličtiny, který by se kromě chyb zaměřoval i na značkování specifik mluveného jazyka. V teoretické části proto práce stručně nastiňuje žákovský jazyk jako takový, vznik a vývoj žákovských korpusů v posledních 20 letech a jak klasickou, tak počítačem podporovanou chybovou analýzu. Kromě toho jsou v teoretické části popsána specifika mluveného jazyka, na která se pak soustřeďuje část praktická. Jako základ pro navrhovaný systém značkování je použit Lovaňský značkovací systém, který je ale určený pro žákovský korpus psaného jazyka. Na základě analýzy přepisů 20 nahrávek z české části žákovského korpusu LINDSEI jsou navrženy úpravy kategorií stávajících a kategorie nové, které by měly lépe zachytit prvky typické pro mluvený jazyk a tak usnadnit jeho analýzu po označkování celého korpusu.

Abstrakt (anglicky)

The aim of the thesis is to propose a tagging system for a learner corpus of spoken English which would, apart from tagging errors, focus also on the features specific for spoken language. Theoretical part, therefore, introduces basic concepts including learner language, the development of learner corpora in the last 20 years and both classical and computer-aided error analysis. Features typical of spoken language are described in the theoretical part as well since these are the focus of the research part of the thesis. The Louvain tagging system used for error-tagging of a leaner corpus of written language is used as the basis for the tagging system proposed in this thesis. Based on the analysis of 20 transcriptions taken from the Czech part of spoken learner corpus LINDSEI, modifications of the categories taken from the Louvain error-tagging system are proposed and new categories necessary for a better description of spoken language are introduced. The tagging system proposed in this thesis should make further analysis of the tagged corpus easier.

Citace dokumentu

Metadata

Zobrazit celý záznam