dc.contributor.advisor | Ševčíková, Magda | |
dc.creator | Neumannová, Kristýna | |
dc.date.accessioned | 2021-07-23T10:05:08Z | |
dc.date.available | 2021-07-23T10:05:08Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/127960 | |
dc.description.abstract | Tato bakalářská práce se zabývá automatickou identifikací českých ekvivalentů německých substantivních kompozit. Skládání slov je doloženo v obou jazycích, ačkoliv v němčině je více produktivní než v češtině, kde převládá odvozování. V první části práce jsme se věnovali identifikaci českých protějšků německých kom- pozit za pomoci paralelních korpusů a nástrojů na statistický strojový překlad založený na frázích. Poté jsme rozdělili české protějšky na jednoslovné, dvouslovné a víceslovné. České ekvivalenty byly analyzovány podle jejich slovnědruhového zařazení. Více než polovina německých substantivních kompozit odpovídá sekvenci dvou nebo více slov v češtině, většina sekvencí je tvořena přídavným a podstatným jménem. U jednoslovných ekviva- lentů byla zkoumána jejich morfologická struktura a byla mezi nimi rozlišena kompozita a odvozená slova, kde druhá část německého kompozita odpovídá příponě v českém pro- tějšku. 1 | cs_CZ |
dc.description.abstract | This bachelor thesis deals with automatic identification of Czech equivalents of Ger- man nominal compounds and their linguistic analysis. Compounding is a word formation process which is exploited in both languages, however, in German it is much more pro- ductive than in Czech, where the derivation word formation process predominates. The first part of the thesis copes with identification of Czech counterparts of Ger- man compounds with the help of parallel corpora and tools for phrase-based statistical machine translation. After the identification, one-word, two-word and multi-word Czech equivalents were distinguished. The Czech equivalents were analysed according to their part-of-speech tags. Over a half of the German nominal compounds correspond to a se- quence of two or more words in Czech, most of the sequences are made up of an adjective and a noun. Morphological structure of one-word equivalents was studied and these equivalents were distinguished into compounds and derivatives, in which the second part of the German compound corresponds to a suffix in the Czech counterpart. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | slovotvorba|skládání slov|odvozování|morfologie|syntax|zpracování přirozeného jazyka|paralelní korpus|zarovnání | cs_CZ |
dc.subject | word formation|composition|derivation|morphology|syntax|natural language processing|parallel corpus|alignment | en_US |
dc.title | Identification and analysis of Czech equivalents of German compounds | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2021 | |
dcterms.dateAccepted | 2021-07-02 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 235786 | |
dc.title.translated | Identifikace a analýza českých ekvivalentů německých kompozit | cs_CZ |
dc.contributor.referee | Zeman, Daniel | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato bakalářská práce se zabývá automatickou identifikací českých ekvivalentů německých substantivních kompozit. Skládání slov je doloženo v obou jazycích, ačkoliv v němčině je více produktivní než v češtině, kde převládá odvozování. V první části práce jsme se věnovali identifikaci českých protějšků německých kom- pozit za pomoci paralelních korpusů a nástrojů na statistický strojový překlad založený na frázích. Poté jsme rozdělili české protějšky na jednoslovné, dvouslovné a víceslovné. České ekvivalenty byly analyzovány podle jejich slovnědruhového zařazení. Více než polovina německých substantivních kompozit odpovídá sekvenci dvou nebo více slov v češtině, většina sekvencí je tvořena přídavným a podstatným jménem. U jednoslovných ekviva- lentů byla zkoumána jejich morfologická struktura a byla mezi nimi rozlišena kompozita a odvozená slova, kde druhá část německého kompozita odpovídá příponě v českém pro- tějšku. 1 | cs_CZ |
uk.abstract.en | This bachelor thesis deals with automatic identification of Czech equivalents of Ger- man nominal compounds and their linguistic analysis. Compounding is a word formation process which is exploited in both languages, however, in German it is much more pro- ductive than in Czech, where the derivation word formation process predominates. The first part of the thesis copes with identification of Czech counterparts of Ger- man compounds with the help of parallel corpora and tools for phrase-based statistical machine translation. After the identification, one-word, two-word and multi-word Czech equivalents were distinguished. The Czech equivalents were analysed according to their part-of-speech tags. Over a half of the German nominal compounds correspond to a se- quence of two or more words in Czech, most of the sequences are made up of an adjective and a noun. Morphological structure of one-word equivalents was studied and these equivalents were distinguished into compounds and derivatives, in which the second part of the German compound corresponds to a suffix in the Czech counterpart. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
dc.contributor.consultant | Žabokrtský, Zdeněk | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |