Český morfologický guesser
Czech morphological guesser
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/31023Identifikátory
SIS: 44112
Katalog UK: 990011318530106986
Kolekce
- Kvalifikační práce [11981]
Autor
Vedoucí práce
Oponent práce
Mírovský, Jiří
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
22. 6. 2009
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
C ílem práace je implementace guesseru pro českýy jazyk, kter ý využívá slovní kov á data. První m krokem při analýze textu je p ři řazení morfologick ých tag ů jednotlivým slov ům v textu. Morfologick é tagy popisují slovní druh a tvar slova, co ž je informace pot řebn á pro další anal ýzu textu. Morfologick é tagy se přiřazují na základě automatick ého vyhledání pří slu šného slovn í ho tvaru ve slovní ku. Morfologický guesser přiřazuje tagy slovům, která ve slovn í ku nebyla nalezena. Zde popsan ý guesser využí v á podobnost nerozpoznan ých slov se slovy již ve slovní ku obsa ženými.
The first step of text analysis is tagging word forms with morphological tags. These tags describe the part of speech, person (where applicable), number, etc. This information is used for further analysis of the text. Tags are automatically assigned by looking up the word form in the morphological dictionary. This gives good results for the Czech language because the word forms express the morphological categories to some extent. Unlike English words, Czech words often change their ending when their morphological category changes. Words that are not present in the dictionary can be tagged with a guesser. The guesser described here uses the similarity of unrecognized words with words already present in the dictionary.
