Oprava gramatiky v češtině

Pechman, Petr

Czech Grammar Error Correction

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/190601

Identifikátory

SIS: 254605

Konzultant práce

Náplava, Jakub

Oponent práce

Rosen, Alexandr

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 6. 2024

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

oprava gramatiky|GECCC|čeština

Klíčová slova (anglicky)

grammar error correction|GECCC|Czech

Představujeme systém na opravu gramatických chyb v českém jazyce. Systém je založen na přístupu neuronového strojového překladu. Požíváme architekturu Trans- former, která je závislá na velkém množství anotovaných dat. Vzhledem k tomu, že pro většinu jazyků včetně češtiny není k dispozici dostatek anotovaných dat, volíme syn- tetické generování dat. Do syntetických chyb zavádíme, jak chyby jednoduché, tak i složitější - typické české chyby. Pro usnadnění experimentování vyvíjíme systém schopný generovat data v reálném čase a rovnou na těchto datech trénovat model. Následně navrhujeme několik vylepšení, jako je převzorkování jazykových domén nebo výběr zdroje dat pro syntetické generování. Náš nejvýkonnější model dosahuje nejlepších výsledků v českém jazyce vůči modelům, které jsou srovnatelně velké. Implementace je zveře- jněna na GitHub pod adresou: https://github.com/petrpechman/czech_gec/tree/ MasterThesis_PechmanPetr_2024. 1

Abstrakt (anglicky)

We present a grammatical error correction system for correcting the Czech language. The system is based on the neural machine translation approach. We utilize the Trans- former architecture, which depends on a large amount of annotated data. Given that for most languages, including Czech, there is not enough annotated data available, we opt to generate synthetic data with artificial errors. We generate not only using sim- ple language-independent errors, but we also introduce typical Czech errors. To facili- tate quick experimentation, we develop a flexible training pipeline capable of real-time data generation. Consequently, we evaluate the effect of several proposed improvements such as oversampling of language domains or a choice of data source for synthetic gen- eration. Our best-performing model achieves state-of-the-art results in the Czech lan- guage for comparable model size. The implementation is released on GitHub at https: //github.com/petrpechman/czech_gec/tree/MasterThesis_PechmanPetr_2024. 1

Citace dokumentu

Metadata

Zobrazit celý záznam