Show simple item record

Harmonizace jazykových zdrojů zachycujících slovotvorbu různých jazyků
dc.contributor.advisorŠevčíková, Magda
dc.creatorKyjánek, Lukáš
dc.date.accessioned2020-07-14T09:57:28Z
dc.date.available2020-07-14T09:57:28Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/118513
dc.description.abstractIn the field of Natural Language Processing, word-formation is under-resourced comparing to inflectional morphology. Moreover, the existing resources capturing word-formation differ in many aspects. This thesis aims to review existing language resources for word-formation across languages and to unify them to a common data structure and file format. Basic notions of word-formation are followed by a review of existing language resources and their comparison in both quantitative and qualitative aspects. In the core part of the thesis, the harmonisation process is presented. Design decisions on the unification procedure are presented, and the selection of the resources to unify is described. The resources are unified to the rooted tree data structure and stored in a lexeme-based file format, which is already used in DeriNet 2.0. The procedure applies supervised machine learning model and the Maximum Spanning Tree algorithm. While the model scores word-formation relations, the MST algorithm uses the scores for identifying the rooted tree structure in each word-formation family. The resulting collection of harmonised resources covering 20 European languages was published under the title 'Universal Derivations' (UDer).en_US
dc.description.abstractV oblasti počítačového zpracování přirozené jazyka není slovotvorba v porovnání s (flektivní) morfologií dostatečně pokryta jazykovými zdroji. Již existující zdroje zachycující slovotvorbu se navíc liší v mnoha aspektech. V rámci této diplomové práce jsou popsány jak existující jazykové zdroje zachycující slovotvorbu napříč jazyky, tak sjednocení (harmonizace) jejich datových struktur a souborových formátů. První dvě kapitoly uvádí základní pojmy z oblasti slovotvorby a zároveň detailní přehled a kvantitativní i kvalitativní srovnání existujících jazykových zdrojů slovotvorby. Jádro diplomové práce tvoří popis harmonizačního procesu a jeho aplikace na vybrané zdroje. Jsou představena nejen kritéria výběru, ale také základní rozhodnutí týkající se harmonizačního procesu. Výsledné harmonizované zdroje reprezentují příbuzná slova jako zakořeněné stromy uložené ve sloupcovém souborovém formátu. Tato datová struktura a souborový formát aktuálně používá DeriNet 2.0. Navržená harmonizační procedura využívá řízené strojové učení a algoritmus hledající kostru v orientovaném grafu. Natrénovaný strojový model přiřazuje skóre každému slovotvornému vztahu a zmíněný algoritmus následně na jejich základě nalezne v každé slovotvorné rodině kostru orientovaného grafu, tj. strukturu zakořeněného stromu. Výsledná kolekce...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectlanguage resourceen_US
dc.subjectlexical resourceen_US
dc.subjectword-formationen_US
dc.subjectderivationen_US
dc.subjectharmonisationen_US
dc.subjectnatural languagesen_US
dc.subjectnatural language processingen_US
dc.subjectjazykový zdrojcs_CZ
dc.subjectlexikální zdrojcs_CZ
dc.subjectslovotvorbacs_CZ
dc.subjectderivacecs_CZ
dc.subjectharmonizacecs_CZ
dc.subjectpřirozené jazykycs_CZ
dc.subjectpočítačové zpracování jazykacs_CZ
dc.titleHarmonisation of Language Resources for Word-Formation of Multiple Languagesen_US
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-06-23
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId211324
dc.title.translatedHarmonizace jazykových zdrojů zachycujících slovotvorbu různých jazykůcs_CZ
dc.contributor.refereeZeman, Daniel
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV oblasti počítačového zpracování přirozené jazyka není slovotvorba v porovnání s (flektivní) morfologií dostatečně pokryta jazykovými zdroji. Již existující zdroje zachycující slovotvorbu se navíc liší v mnoha aspektech. V rámci této diplomové práce jsou popsány jak existující jazykové zdroje zachycující slovotvorbu napříč jazyky, tak sjednocení (harmonizace) jejich datových struktur a souborových formátů. První dvě kapitoly uvádí základní pojmy z oblasti slovotvorby a zároveň detailní přehled a kvantitativní i kvalitativní srovnání existujících jazykových zdrojů slovotvorby. Jádro diplomové práce tvoří popis harmonizačního procesu a jeho aplikace na vybrané zdroje. Jsou představena nejen kritéria výběru, ale také základní rozhodnutí týkající se harmonizačního procesu. Výsledné harmonizované zdroje reprezentují příbuzná slova jako zakořeněné stromy uložené ve sloupcovém souborovém formátu. Tato datová struktura a souborový formát aktuálně používá DeriNet 2.0. Navržená harmonizační procedura využívá řízené strojové učení a algoritmus hledající kostru v orientovaném grafu. Natrénovaný strojový model přiřazuje skóre každému slovotvornému vztahu a zmíněný algoritmus následně na jejich základě nalezne v každé slovotvorné rodině kostru orientovaného grafu, tj. strukturu zakořeněného stromu. Výsledná kolekce...cs_CZ
uk.abstract.enIn the field of Natural Language Processing, word-formation is under-resourced comparing to inflectional morphology. Moreover, the existing resources capturing word-formation differ in many aspects. This thesis aims to review existing language resources for word-formation across languages and to unify them to a common data structure and file format. Basic notions of word-formation are followed by a review of existing language resources and their comparison in both quantitative and qualitative aspects. In the core part of the thesis, the harmonisation process is presented. Design decisions on the unification procedure are presented, and the selection of the resources to unify is described. The resources are unified to the rooted tree data structure and stored in a lexeme-based file format, which is already used in DeriNet 2.0. The procedure applies supervised machine learning model and the Maximum Spanning Tree algorithm. While the model scores word-formation relations, the MST algorithm uses the scores for identifying the rooted tree structure in each word-formation family. The resulting collection of harmonised resources covering 20 European languages was published under the title 'Universal Derivations' (UDer).en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV