Volba vhodné sady rysů pro morfologické značkování češtiny
Selecting an optimal set of features for the morphological tagging of Czech
rigorózní práce (UZNÁNO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/21199Identifikátory
SIS: 72810
Kolekce
- Kvalifikační práce [10690]
Autor
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
25. 5. 2009
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Uznáno
Tato práce navazuje na implementačně-výzkumný projekt Morče, jehož cílem bylo vytvoření co nejlepšího morfologického taggeru češtiny, založeného na skrytém Markovově modelu s průměrovaným perceptronem. Úspěšnost algoritmu závisí především na zvolené sadě rysů popisujících kontext, na jehož základě se značky vybírají. Práce stručně popisuje zvolený algoritmus a jeho implementaci. Její stěžejní část spočívá ve velké řadě provedených experimentů, které v rámci daných možností důkladně mapují možné sady rysů, jejich úspěšnosti a vztahy mezi nimi. Pro tento účel jsou definována pravidla, podle kterých se verze porovnávají. Využívá se pětinásobná crossvalidace a pro zjištění statistické významnosti výsledků je aplikován t-test. Při zahájení práce byla dána k dispozici nová data pro češtinu, takže veškeré experimenty se již prováděly nad daty z PDT 2.0. Vedlejším výsledkem práce je i statisticky významné zvýšení úspěšnosti taggeru, nicméně nejlepší tagger zřejmě překonán nebyl. Kromě ručního vývoje verzí byl projekt také upraven pro automatický vývoj, který byl v menším rozsahu proveden a popsán.
This work continues in implementational and experimental project Morče, which aimed to create the best possible morphological Czech tagger based on hidden Markov model with averaged perceptron. Successfulness of algorithm depends mainly on a selected set of features describing a context, which determines choice of a tag. The work describes briefly the algorithm and its implementation. Main part of the work consists of a lot of experiments which explore possible feature sets, their successfulness and their relationships. Few clear rules are defined for comparison of versions. Fivefold crossvalidation with t-test is used for verification of statistical significance. After the work was started, new Czech data became available, so all experiments used data from PDT 2.0. Side effect of this work was statistical significant improvement of successfulness. However, the best Czech tagger was obviously not overwhelmed. Some modifications were made in order to perform automatic version development. It was executed in small extent and also described.