Zobrazit minimální záznam

Automatic dictionary acquisition from parallel corpora
dc.contributor.advisorPecina, Pavel
dc.creatorPopelka, Jan
dc.date.accessioned2017-04-27T12:08:55Z
dc.date.available2017-04-27T12:08:55Z
dc.date.issued2011
dc.identifier.urihttp://hdl.handle.net/20.500.11956/36144
dc.description.abstractV rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA++. Nejlepší natrénovaný model je využit pro zarovnání česko-anglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně.cs_CZ
dc.description.abstractIn this work, an extensible word-alignment framework is implemented from scratch. It is based on a discriminative method that combines a wide range of lexical association measures and other features and requires a small amount of manually word-aligned data to optimize parameters of the model. The optimal alignment is found as minimum-weight edge cover, selected suboptimal alignments are used to estimate confidence of each alignment link. Feature combination is tuned in the course of many experiments with respect to the results of evaluation. The evaluation results are compared to GIZA++. The best trained model is used to word-align a large Czech-English parallel corpus and from the links of highest confidence a bilingual lexicon is extracted. Single-word translation equivalents are sorted by their significance. Lexicons of different sizes are extracted by taking top N translations. Precision of the lexicons is evaluated automatically and also manually by judging random samples.en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectpřekladový slovníkcs_CZ
dc.subjectlexikoncs_CZ
dc.subjectdiskriminativní zarovnání slovcs_CZ
dc.subjecttranslation dictionaryen_US
dc.subjectlexiconen_US
dc.subjectdiscriminative word alignmenten_US
dc.titleAutomatické vytváření slovníků z paralelních korpusůcs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2011
dcterms.dateAccepted2011-05-10
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId63642
dc.title.translatedAutomatic dictionary acquisition from parallel corporaen_US
dc.contributor.refereeMareček, David
dc.identifier.aleph001359346
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA++. Nejlepší natrénovaný model je využit pro zarovnání česko-anglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně.cs_CZ
uk.abstract.enIn this work, an extensible word-alignment framework is implemented from scratch. It is based on a discriminative method that combines a wide range of lexical association measures and other features and requires a small amount of manually word-aligned data to optimize parameters of the model. The optimal alignment is found as minimum-weight edge cover, selected suboptimal alignments are used to estimate confidence of each alignment link. Feature combination is tuned in the course of many experiments with respect to the results of evaluation. The evaluation results are compared to GIZA++. The best trained model is used to word-align a large Czech-English parallel corpus and from the links of highest confidence a bilingual lexicon is extracted. Single-word translation equivalents are sorted by their significance. Lexicons of different sizes are extracted by taking top N translations. Precision of the lexicons is evaluated automatically and also manually by judging random samples.en_US
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
dc.identifier.lisID990013593460106986


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV