Natural Language Correction With Focus on Czech

Náplava, Jakub

Automatická korekce textu se zaměřením na češtinu

dizertační práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (348.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/174730

Identifikátory

SIS: 190078

Oponent práce

Grundkiewicz, Roman

Dušek, Ondřej

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

28. 6. 2022

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Prospěl/a

Klíčová slova (česky)

automatická korekce textu|oprava gramatiky|generování diakritiky|datasety|zpracování přirozeného jazyka

Klíčová slova (anglicky)

natural language correction|grammatical error correction|diacritics restoration|datasets|Czech

Automatická korekce textu (natural language correction) je obor zabývající se vytvá- řením systémů pro automatickou opravu lidmi psaných textů. Tento obor zahrnuje mimo jiné obecnou opravu gramatiky, opravu překlepů či doplnění diakritiky. V posledních le- tech jsme byli svědky velkého rozmachu tohoto oboru, objevily se nové modely pro korekci textu, datasety a také vyhodnocovací metriky. Tato disertace prezentuje formou souboru publikovaných prací naše příspěvky do této oblasti. Jelikož je čeština mateřským jazy- kem autora této práce, věnovali jsme velké úsilí zlepšování tohoto oboru v češtině. Mezi hlavní výstupy naší práce patří: (1) vytvoření velké datové sady pojmenované Grammar Error Correction Corpus for Czech, která obsahuje anotované texty psané různými typy uživatelů jako třeba eseje či příspěvky ve webových diskuzích, a zároveň natrénovaní a evaluaci automatických systémů založených na neuronových sítí a také provedení meta- evaluace automatických metrik, (2) vytvoření systémů pro automatickou korekci textu, které fungují dobře v situacích, kdy je k dispozici pouze malé množství anotovaných dat pro řízené učení a (3) vytvoření dvou systémů pro automatickou diakritizaci textu do- sahujících nejlepších známých výsledků a také vytvoření velké datové sady pro učení a vyhodnocování systémů pro...

Abstrakt (anglicky)

Natural language correction, a subfield of natural language processing (NLP), is the task of automatically correcting user errors in written texts. It includes, but is not lim- ited to, grammatical error correction, spelling error correction and diacritics restoration. During the course of the work on this thesis, we witnessed a great advance in this field, with the emergence of new approaches to correct user errors, new datasets and also new evaluation metrics. This thesis presents, in the form of a dissertation by publication, our contributions to this field. As Czech is the primary language of the thesis author, special focus was devoted to improving natural language correction in Czech. The main con- tributions are (1) the creation of the Grammar Error Correction Corpus for Czech that comprises multiple sources of noisy texts such as essays or online discussion posts, eval- uation of strong neural models on this dataset, and meta-evaluation of existing metrics, (2) the development of grammar error correction systems suited to scenarios in which only low amount of annotated data is available, and (3) the development of two state-of- the-art models and the creation of the new multilingual dataset comprising 12 languages for diacritics restoration. 1

Citace dokumentu

Metadata

Zobrazit celý záznam