dc.contributor.advisor | Straka, Milan | |
dc.creator | Náplava, Jakub | |
dc.date.accessioned | 2017-06-28T10:07:54Z | |
dc.date.available | 2017-06-28T10:07:54Z | |
dc.date.issued | 2017 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/85667 | |
dc.description.abstract | Cílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem. | cs_CZ |
dc.description.abstract | The goal of this thesis is to explore the area of natural language correction and to design and implement neural network models for a range of tasks ranging from general grammar correction to the specific task of diacritization. The thesis opens with a description of existing approaches to natural language correction. Existing datasets are reviewed and two new datasets are introduced: a manually annotated dataset for grammatical error correction based on CzeSL (Czech as a Second Language) and an automatically created spelling correction dataset. The main part of the thesis then presents design and implementation of three models, and evaluates them on several natural language correction datasets. In comparison to existing statistical systems, the proposed models learn all knowledge from training data; therefore, they do not require an error model or a candidate generation mechanism to be manually set, neither they need any additional language information such as a part of speech tags. Our models significantly outperform existing systems on the diacritization task. Considering the spelling and basic grammar correction tasks for Czech, our models achieve the best results for two out of the three datasets. Finally, considering the general grammatical correction for English, our models achieve results which are... | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | oprava pravopisu | cs_CZ |
dc.subject | kontrola pravopisu | cs_CZ |
dc.subject | zpracování přirozeného jazyka | cs_CZ |
dc.subject | hluboké učení | cs_CZ |
dc.subject | language correction | en_US |
dc.subject | spell checking | en_US |
dc.subject | natural language processing | en_US |
dc.subject | deep learning | en_US |
dc.title | Natural Language Correction | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2017 | |
dcterms.dateAccepted | 2017-06-07 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 188260 | |
dc.title.translated | Automatická oprava pravopisu | cs_CZ |
dc.contributor.referee | Straňák, Pavel | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Umělá inteligence | cs_CZ |
thesis.degree.discipline | Artificial Intelligence | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Cílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem. | cs_CZ |
uk.abstract.en | The goal of this thesis is to explore the area of natural language correction and to design and implement neural network models for a range of tasks ranging from general grammar correction to the specific task of diacritization. The thesis opens with a description of existing approaches to natural language correction. Existing datasets are reviewed and two new datasets are introduced: a manually annotated dataset for grammatical error correction based on CzeSL (Czech as a Second Language) and an automatically created spelling correction dataset. The main part of the thesis then presents design and implementation of three models, and evaluates them on several natural language correction datasets. In comparison to existing statistical systems, the proposed models learn all knowledge from training data; therefore, they do not require an error model or a candidate generation mechanism to be manually set, neither they need any additional language information such as a part of speech tags. Our models significantly outperform existing systems on the diacritization task. Considering the spelling and basic grammar correction tasks for Czech, our models achieve the best results for two out of the three datasets. Finally, considering the general grammatical correction for English, our models achieve results which are... | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |