Harmonisation of Language Resources for Word-Formation of Multiple Languages
Harmonizace jazykových zdrojů zachycujících slovotvorbu různých jazyků
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/118513Identifikátory
SIS: 211324
Kolekce
- Kvalifikační práce [11217]
Autor
Vedoucí práce
Oponent práce
Zeman, Daniel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
23. 6. 2020
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
jazykový zdroj, lexikální zdroj, slovotvorba, derivace, harmonizace, přirozené jazyky, počítačové zpracování jazykaKlíčová slova (anglicky)
language resource, lexical resource, word-formation, derivation, harmonisation, natural languages, natural language processingV oblasti počítačového zpracování přirozené jazyka není slovotvorba v porovnání s (flektivní) morfologií dostatečně pokryta jazykovými zdroji. Již existující zdroje zachycující slovotvorbu se navíc liší v mnoha aspektech. V rámci této diplomové práce jsou popsány jak existující jazykové zdroje zachycující slovotvorbu napříč jazyky, tak sjednocení (harmonizace) jejich datových struktur a souborových formátů. První dvě kapitoly uvádí základní pojmy z oblasti slovotvorby a zároveň detailní přehled a kvantitativní i kvalitativní srovnání existujících jazykových zdrojů slovotvorby. Jádro diplomové práce tvoří popis harmonizačního procesu a jeho aplikace na vybrané zdroje. Jsou představena nejen kritéria výběru, ale také základní rozhodnutí týkající se harmonizačního procesu. Výsledné harmonizované zdroje reprezentují příbuzná slova jako zakořeněné stromy uložené ve sloupcovém souborovém formátu. Tato datová struktura a souborový formát aktuálně používá DeriNet 2.0. Navržená harmonizační procedura využívá řízené strojové učení a algoritmus hledající kostru v orientovaném grafu. Natrénovaný strojový model přiřazuje skóre každému slovotvornému vztahu a zmíněný algoritmus následně na jejich základě nalezne v každé slovotvorné rodině kostru orientovaného grafu, tj. strukturu zakořeněného stromu. Výsledná kolekce...
In the field of Natural Language Processing, word-formation is under-resourced comparing to inflectional morphology. Moreover, the existing resources capturing word-formation differ in many aspects. This thesis aims to review existing language resources for word-formation across languages and to unify them to a common data structure and file format. Basic notions of word-formation are followed by a review of existing language resources and their comparison in both quantitative and qualitative aspects. In the core part of the thesis, the harmonisation process is presented. Design decisions on the unification procedure are presented, and the selection of the resources to unify is described. The resources are unified to the rooted tree data structure and stored in a lexeme-based file format, which is already used in DeriNet 2.0. The procedure applies supervised machine learning model and the Maximum Spanning Tree algorithm. While the model scores word-formation relations, the MST algorithm uses the scores for identifying the rooted tree structure in each word-formation family. The resulting collection of harmonised resources covering 20 European languages was published under the title 'Universal Derivations' (UDer).
Citace dokumentu
Metadata
Zobrazit celý záznamSouvisející záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Maturitní zkouška z českého jazyka v úpravě pro neslyšící ve světle testování češtiny jako cizího jazyka
Výsledek obhajoby: OBHÁJENOAndrejsek, Jan (Univerzita Karlova, Filozofická fakulta, 2015)Datum obhajoby: 4. 2. 2015Práce se na pozadí dosavadních výzkumů čtenářské gramotnosti u sluchově postižených žáků zabývá modifikovanou maturitní zkouškou z českého jazyka v úpravě pro neslyšící, kterou v České republice skládají neslyšící žáci ve ... -
Teaching English through English
Výsledek obhajoby: OBHÁJENOSmejkalová, Julie (Univerzita Karlova, Pedagogická fakulta, 2014)Datum obhajoby: 12. 9. 2014Diplomová práce se zabývá rolí cílového jazyka ve výuce angličtiny. Cílem práce je prozkoumat vliv výuky prostřednictvím cílového jazyka na rozvoj komunikativní kompetence žáků prvního stupně základní školy. Teoretická ... -
Úvod do teorie jazykové správnosti
Výsledek obhajoby: OBHÁJENOBeneš, Martin (Univerzita Karlova, Filozofická fakulta, 2017)Datum obhajoby: 23. 6. 2017Introduction to the Theory of Language Correctness. The theme of this Thesis is the novel conceptualization of the subject field, which is, in the Czech context, traditionally dealt with within the theory of language ...