Software pro obousměrnou klasifikaci sekvencí
Software for Bidirectional Sequence Classification
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/20398Identifiers
Study Information System: 62273
Collections
- Kvalifikační práce [10925]
Author
Advisor
Referee
Spoustová, Johanka
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Institute of Formal and Applied Linguistics
Date of defense
25. 5. 2009
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
C ílem této práce bylo implementovat algoritmus pro obousměrnou klasifi kaci sekvencí popsaných v článku Libina Shena a kolektivu. Pr áce navazuje na implementa čně-výzkumný projekt Mor če, jehož cí lem bylo vytvoření co nejlepší ho morfologického taggeru češtiny, založen ého na skrytém Markovově modelu s průměrovaným perceptronem a na diplomové práci Jana Raaba jejiž cí lem bylo implementovat Viterbiho algoritmus a nají t pro něj nejlep ší možnou sadu rysů. Tahle práce nabí zí Shenův algoritmus jako alternativu k Viterbiho algoritmu. Omezení Viterbiho algoritmu je v jeho jednosměrnosti, volba značky na určité pozici může záviset na ji ž učiněných rozhodnutí ch pouze na p ředchozí ch pozicí ch. Tí m může docházet k volbě suboptimální ho kandidáta, a tí m ke snížení úsp ěšnosti analyzátoru. Tato práce implementuje algoritmus, jen ž se chová obousm ěrně, na výběr značky může použí vat již učiněná rozhodnutí na obou stran ách od aktuální pozice, přičemž zachovává výpo čtně únosnou slo žitost.
The goal of this master thesis was to implement algorithm for bidirectional classifi cation of sequences described in article of Libin Shen and col. This work builds on implementation and experimental project Mor ce, morphological tagger based on hidden Markov model with averaged perceptron and on Jan Raab's master thesis, which goal was to implement Viterbi's algorithm and nd best possible set of features for it. This work o ers Shen's algorithm as alternative to Viterbi's algorithm. Limitation of Viterbi's algorithm is in its one-way direction, selection of tag on some position can depend on some already done decisions, but only on preceeding positions. This can cause selection of suboptimal candidate and regression of analyser accuracy. This work implements algorithm, that works bidirectionally and can use already done decisions from both sides of current position, keeping tolerable complexity.