Zobrazit minimální záznam

Automatická oprava pravopisu
dc.contributor.advisorStraka, Milan
dc.creatorNáplava, Jakub
dc.date.accessioned2017-06-28T10:07:54Z
dc.date.available2017-06-28T10:07:54Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/20.500.11956/85667
dc.description.abstractCílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem.cs_CZ
dc.description.abstractThe goal of this thesis is to explore the area of natural language correction and to design and implement neural network models for a range of tasks ranging from general grammar correction to the specific task of diacritization. The thesis opens with a description of existing approaches to natural language correction. Existing datasets are reviewed and two new datasets are introduced: a manually annotated dataset for grammatical error correction based on CzeSL (Czech as a Second Language) and an automatically created spelling correction dataset. The main part of the thesis then presents design and implementation of three models, and evaluates them on several natural language correction datasets. In comparison to existing statistical systems, the proposed models learn all knowledge from training data; therefore, they do not require an error model or a candidate generation mechanism to be manually set, neither they need any additional language information such as a part of speech tags. Our models significantly outperform existing systems on the diacritization task. Considering the spelling and basic grammar correction tasks for Czech, our models achieve the best results for two out of the three datasets. Finally, considering the general grammatical correction for English, our models achieve results which are...en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectoprava pravopisucs_CZ
dc.subjectkontrola pravopisucs_CZ
dc.subjectzpracování přirozeného jazykacs_CZ
dc.subjecthluboké učenícs_CZ
dc.subjectlanguage correctionen_US
dc.subjectspell checkingen_US
dc.subjectnatural language processingen_US
dc.subjectdeep learningen_US
dc.titleNatural Language Correctionen_US
dc.typediplomová prácecs_CZ
dcterms.created2017
dcterms.dateAccepted2017-06-07
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId188260
dc.title.translatedAutomatická oprava pravopisucs_CZ
dc.contributor.refereeStraňák, Pavel
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csCílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem.cs_CZ
uk.abstract.enThe goal of this thesis is to explore the area of natural language correction and to design and implement neural network models for a range of tasks ranging from general grammar correction to the specific task of diacritization. The thesis opens with a description of existing approaches to natural language correction. Existing datasets are reviewed and two new datasets are introduced: a manually annotated dataset for grammatical error correction based on CzeSL (Czech as a Second Language) and an automatically created spelling correction dataset. The main part of the thesis then presents design and implementation of three models, and evaluates them on several natural language correction datasets. In comparison to existing statistical systems, the proposed models learn all knowledge from training data; therefore, they do not require an error model or a candidate generation mechanism to be manually set, neither they need any additional language information such as a part of speech tags. Our models significantly outperform existing systems on the diacritization task. Considering the spelling and basic grammar correction tasks for Czech, our models achieve the best results for two out of the three datasets. Finally, considering the general grammatical correction for English, our models achieve results which are...en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV