| dc.contributor.advisor | Žabokrtský, Zdeněk | |
| dc.creator | Bodnár, Jan | |
| dc.date.accessioned | 2020-10-05T10:03:38Z | |
| dc.date.available | 2020-10-05T10:03:38Z | |
| dc.date.issued | 2020 | |
| dc.identifier.uri | http://hdl.handle.net/20.500.11956/120981 | |
| dc.description.abstract | Morfologická segmentace se zabývá dělením slov na morfémy - nejmenší jednotky nesoucí význam. Jedná se o nízkoúrovňový problém z oblasti zpracování přirozeného jazyka. Jelikož se morfologická segmentace někdy používá jako metoda předzpracování dat, její zlepšení může pomoci algoritmům řešícím nejrůznější problémy z oblasti NLP, zejména, pokud v situaci, kdy je nedostatek dat. Zlepšení morfologické segmentace může také pomoci lingvistickému výzkumu, využívajícímu korpusy. V této práci navrhujeme nový ensemble algoritmus pro morfologickou segmentaci Českých lemmat, který používá derivační stromy z datasetu DeriNet. Zároveň vytváříme návrhy na zlepšení tohoto datasetu. | cs_CZ |
| dc.description.abstract | Morphological segmentation is segmentation of words into morphemes - smallest units carrying meaning. It is a low level Natural Language Processing task. Since morphological segmentation is sometimes used as method of preprocessing, achieving better results on this task may help NLP algorithms to better solve various problems, especially in scenarios involving small amount of data, and it may also also help the linguistic research. We propose a novel ensemble algorithm for morphological segmentation of Czech lemmas which makes use of the DeriNet derivation tree dataset. As a sideproduct we also created suggestions for improvements of the DeriNet dataset. | en_US |
| dc.language | English | cs_CZ |
| dc.language.iso | en_US | |
| dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
| dc.subject | morfém | cs_CZ |
| dc.subject | morfologie | cs_CZ |
| dc.subject | segmentace | cs_CZ |
| dc.subject | morpheme | en_US |
| dc.subject | morphology | en_US |
| dc.subject | segmentation | en_US |
| dc.title | Morphological Segmentation in Czech using Word-Formation Network | en_US |
| dc.type | diplomová práce | cs_CZ |
| dcterms.created | 2020 | |
| dcterms.dateAccepted | 2020-09-14 | |
| dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
| dc.description.department | Institute of Formal and Applied Linguistics | en_US |
| dc.description.faculty | Faculty of Mathematics and Physics | en_US |
| dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
| dc.identifier.repId | 224593 | |
| dc.title.translated | Morfologická segmentace v češtině s využitím slovotvorné sítě | cs_CZ |
| dc.contributor.referee | Hana, Jiří | |
| thesis.degree.name | Mgr. | |
| thesis.degree.level | navazující magisterské | cs_CZ |
| thesis.degree.discipline | Artificial Intelligence | en_US |
| thesis.degree.discipline | Umělá inteligence | cs_CZ |
| thesis.degree.program | Computer Science | en_US |
| thesis.degree.program | Informatika | cs_CZ |
| uk.thesis.type | diplomová práce | cs_CZ |
| uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
| uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
| uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
| uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
| uk.faculty-abbr.cs | MFF | cs_CZ |
| uk.degree-discipline.cs | Umělá inteligence | cs_CZ |
| uk.degree-discipline.en | Artificial Intelligence | en_US |
| uk.degree-program.cs | Informatika | cs_CZ |
| uk.degree-program.en | Computer Science | en_US |
| thesis.grade.cs | Dobře | cs_CZ |
| thesis.grade.en | Good | en_US |
| uk.abstract.cs | Morfologická segmentace se zabývá dělením slov na morfémy - nejmenší jednotky nesoucí význam. Jedná se o nízkoúrovňový problém z oblasti zpracování přirozeného jazyka. Jelikož se morfologická segmentace někdy používá jako metoda předzpracování dat, její zlepšení může pomoci algoritmům řešícím nejrůznější problémy z oblasti NLP, zejména, pokud v situaci, kdy je nedostatek dat. Zlepšení morfologické segmentace může také pomoci lingvistickému výzkumu, využívajícímu korpusy. V této práci navrhujeme nový ensemble algoritmus pro morfologickou segmentaci Českých lemmat, který používá derivační stromy z datasetu DeriNet. Zároveň vytváříme návrhy na zlepšení tohoto datasetu. | cs_CZ |
| uk.abstract.en | Morphological segmentation is segmentation of words into morphemes - smallest units carrying meaning. It is a low level Natural Language Processing task. Since morphological segmentation is sometimes used as method of preprocessing, achieving better results on this task may help NLP algorithms to better solve various problems, especially in scenarios involving small amount of data, and it may also also help the linguistic research. We propose a novel ensemble algorithm for morphological segmentation of Czech lemmas which makes use of the DeriNet derivation tree dataset. As a sideproduct we also created suggestions for improvements of the DeriNet dataset. | en_US |
| uk.file-availability | V | |
| uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
| thesis.grade.code | 3 | |
| uk.publication-place | Praha | cs_CZ |