Zobrazit minimální záznam

Korektor anglické gramatiky: určité a neurčité členy
dc.contributor.advisorPecina, Pavel
dc.creatorAuersperger, Michal
dc.date.accessioned2017-06-28T10:02:03Z
dc.date.available2017-06-28T10:02:03Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/20.500.11956/85647
dc.description.abstractPředkládaná práce přistupuje ke kontrole členů v anglickém textu jako ke klasi- fikační úloze řešené metodami strojového učení s učitelem. Každé jmenné frázi v textu je přiřazena jedna ze tří tříd reprezentující určitý, neurčitý nebo nulový člen. V rámci úvodní rešerše byl definován článek dosahující na takto pojaté úloze ne- jlepších výsledků. Daný experiment byl pak zreplikován a překonán. Pomocí jiných signálů a volbou rozdílného učícího algoritmu došlo k poklesu chyby klasifikace o cca. 34%. Výsledný model byl pak porovnán s výkonem expertů na dané úloze. Přes problémy srovnání způsobené rozdílností dat se zdá, že je-li model použit na typu dat, na kterém byl trénován, je jeho úspěšnost srovnatelná s lidskou silou. Použití modelu na jiných datech se ale neosvědčilo. Stejně tak se neosvědčila ani náhrada klasifikátoru za jazykový model, který by předpovídal potenciální člen pro každou pozici ve větě. 1cs_CZ
dc.description.abstractCorrection of the articles in English texts is approached as an article generation task, i.e. each noun phrase is assigned with a class corresponding to the definite, indefinite or zero article. Supervised machine learning methods are used to first replicate and then improve upon the best reported result in the literature known to the author. By feature engineering and a different choice of the learning method, about 34% drop in error is achieved. The resulting model is further compared to the performance of expert annotators. Although the comparison is not straightforward due to the differences in the data, the results indicate the performance of the trained model is comparable to the human-level performance when measured on the in-domain data. On the other hand, the model does not generalize well to different types of data. Using a large-scale language model to predict an article (or no article) for each word of the text has not proved successful. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectAngličtinacs_CZ
dc.subjectčlenycs_CZ
dc.subjectkontrola pravopisucs_CZ
dc.subjectEnglishen_US
dc.subjectdeterminersen_US
dc.subjectgrammar checkeren_US
dc.titleEnglish grammar checker and corrector: the determinersen_US
dc.typediplomová prácecs_CZ
dcterms.created2017
dcterms.dateAccepted2017-06-07
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId127237
dc.title.translatedKorektor anglické gramatiky: určité a neurčité členycs_CZ
dc.contributor.refereeStraňák, Pavel
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csPředkládaná práce přistupuje ke kontrole členů v anglickém textu jako ke klasi- fikační úloze řešené metodami strojového učení s učitelem. Každé jmenné frázi v textu je přiřazena jedna ze tří tříd reprezentující určitý, neurčitý nebo nulový člen. V rámci úvodní rešerše byl definován článek dosahující na takto pojaté úloze ne- jlepších výsledků. Daný experiment byl pak zreplikován a překonán. Pomocí jiných signálů a volbou rozdílného učícího algoritmu došlo k poklesu chyby klasifikace o cca. 34%. Výsledný model byl pak porovnán s výkonem expertů na dané úloze. Přes problémy srovnání způsobené rozdílností dat se zdá, že je-li model použit na typu dat, na kterém byl trénován, je jeho úspěšnost srovnatelná s lidskou silou. Použití modelu na jiných datech se ale neosvědčilo. Stejně tak se neosvědčila ani náhrada klasifikátoru za jazykový model, který by předpovídal potenciální člen pro každou pozici ve větě. 1cs_CZ
uk.abstract.enCorrection of the articles in English texts is approached as an article generation task, i.e. each noun phrase is assigned with a class corresponding to the definite, indefinite or zero article. Supervised machine learning methods are used to first replicate and then improve upon the best reported result in the literature known to the author. By feature engineering and a different choice of the learning method, about 34% drop in error is achieved. The resulting model is further compared to the performance of expert annotators. Although the comparison is not straightforward due to the differences in the data, the results indicate the performance of the trained model is comparable to the human-level performance when measured on the in-domain data. On the other hand, the model does not generalize well to different types of data. Using a large-scale language model to predict an article (or no article) for each word of the text has not proved successful. 1en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV