Natural Language Correction With Focus on Czech
Automatická korekce textu se zaměřením na češtinu
dissertation thesis (DEFENDED)

View/ Open
Permanent link
Study Information System: 190078
- Kvalifikační práce [11321]
Grundkiewicz, Roman
Dušek, Ondřej
Faculty / Institute
Faculty of Mathematics and Physics
Computational linguistics
Institute of Formal and Applied Linguistics
Date of defense
28. 6. 2022
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Keywords (Czech)
automatická korekce textu|oprava gramatiky|generování diakritiky|datasety|zpracování přirozeného jazykaKeywords (English)
natural language correction|grammatical error correction|diacritics restoration|datasets|CzechAutomatická korekce textu (natural language correction) je obor zabývající se vytvá- řením systémů pro automatickou opravu lidmi psaných textů. Tento obor zahrnuje mimo jiné obecnou opravu gramatiky, opravu překlepů či doplnění diakritiky. V posledních le- tech jsme byli svědky velkého rozmachu tohoto oboru, objevily se nové modely pro korekci textu, datasety a také vyhodnocovací metriky. Tato disertace prezentuje formou souboru publikovaných prací naše příspěvky do této oblasti. Jelikož je čeština mateřským jazy- kem autora této práce, věnovali jsme velké úsilí zlepšování tohoto oboru v češtině. Mezi hlavní výstupy naší práce patří: (1) vytvoření velké datové sady pojmenované Grammar Error Correction Corpus for Czech, která obsahuje anotované texty psané různými typy uživatelů jako třeba eseje či příspěvky ve webových diskuzích, a zároveň natrénovaní a evaluaci automatických systémů založených na neuronových sítí a také provedení meta- evaluace automatických metrik, (2) vytvoření systémů pro automatickou korekci textu, které fungují dobře v situacích, kdy je k dispozici pouze malé množství anotovaných dat pro řízené učení a (3) vytvoření dvou systémů pro automatickou diakritizaci textu do- sahujících nejlepších známých výsledků a také vytvoření velké datové sady pro učení a vyhodnocování systémů pro...
Natural language correction, a subfield of natural language processing (NLP), is the task of automatically correcting user errors in written texts. It includes, but is not lim- ited to, grammatical error correction, spelling error correction and diacritics restoration. During the course of the work on this thesis, we witnessed a great advance in this field, with the emergence of new approaches to correct user errors, new datasets and also new evaluation metrics. This thesis presents, in the form of a dissertation by publication, our contributions to this field. As Czech is the primary language of the thesis author, special focus was devoted to improving natural language correction in Czech. The main con- tributions are (1) the creation of the Grammar Error Correction Corpus for Czech that comprises multiple sources of noisy texts such as essays or online discussion posts, eval- uation of strong neural models on this dataset, and meta-evaluation of existing metrics, (2) the development of grammar error correction systems suited to scenarios in which only low amount of annotated data is available, and (3) the development of two state-of- the-art models and the creation of the new multilingual dataset comprising 12 languages for diacritics restoration. 1