Český morfologický guesser

Suchánek, Michal

Czech morphological guesser

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (139.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/31023

Identifikátory

SIS: 44112

Katalog UK: 990011318530106986

Oponent práce

Mírovský, Jiří

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

22. 6. 2009

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Velmi dobře

C ílem práace je implementace guesseru pro českýy jazyk, kter ý využívá slovní kov á data. První m krokem při analýze textu je p ři řazení morfologick ých tag ů jednotlivým slov ům v textu. Morfologick é tagy popisují slovní druh a tvar slova, co ž je informace pot řebn á pro další anal ýzu textu. Morfologick é tagy se přiřazují na základě automatick ého vyhledání pří slu šného slovn í ho tvaru ve slovní ku. Morfologický guesser přiřazuje tagy slovům, která ve slovn í ku nebyla nalezena. Zde popsan ý guesser využí v á podobnost nerozpoznan ých slov se slovy již ve slovní ku obsa ženými.

Abstrakt (anglicky)

The first step of text analysis is tagging word forms with morphological tags. These tags describe the part of speech, person (where applicable), number, etc. This information is used for further analysis of the text. Tags are automatically assigned by looking up the word form in the morphological dictionary. This gives good results for the Czech language because the word forms express the morphological categories to some extent. Unlike English words, Czech words often change their ending when their morphological category changes. Words that are not present in the dictionary can be tagged with a guesser. The guesser described here uses the similarity of unrecognized words with words already present in the dictionary.

Citace dokumentu

Metadata

Zobrazit celý záznam