Univerzalní morfologický značkovač
Univerzální značkování slovních druhů
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/54793/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/54793Identifikátory
SIS: 139226
Kolekce
- Kvalifikační práce [10869]
Autor
Vedoucí práce
Oponent práce
Žabokrtský, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 9. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Morfologické značkování je jednou ze základních a zásadních úloh v oblasti zpracování přirozeného jazyka. Morfologické značkovače trénované metodami řízeného strojového učení fungují dobře pro jazyky, pro které existují velká ručně anotovaná data, např. angličtina, francouzština, portugalština, atp. Pro ostatní jazyky nelze metody řízeného strojového učení použít. V této práci trénujeme morfologický značkovač metodou neřízeného strojovho učení na vícejazyčných paralelních datech, která jsou použita pro přenos morfologické informace z jednoho (zdrojového) jazyka do druhého (cílového). Naše metoda dosahuje výsledků srovnatelných se současnuými nejlepšími metodami (porovnání provedeno na 8 jazycích), ale používá výrazně méně trénovacích dat a je jednodušší, což má za následek výrazně větší rychlost zpracování. V práci se dále zabýváme otázkou optimální volby zdrojového jazyka. Ukazuje se, že Angličtina je optimální jen výjiměčně. Naše metoda umí predikovat optimální zdrojový jazyk jen na základě jednojazyčných rysů. Při použití rysů z paralelních dat se kvalita predikce zlepšuje. V práci dále ukazujeme, že úspěšnost značkování se zlepšuje v případě kombinace více zdrojových jazyků. Powered by TCPDF (www.tcpdf.org)
Part-of-speech (POS) tagging is one of the most basic and crucial tasks in Natural Language Processing (NLP). Supervised POS taggers perform well on many resource-rich languages i.e. English, French, Portuguese etc, where manually annotated data is available. However, it is impossible to use a supervised approach for the vast number of resource-poor languages. In this thesis, we apply a multilingual unsupervised method for building taggers for resource-poor languages base additionally on parallel data (Universal Tagger), that is, we use parallel data as the bridge to transfer tag information from resource-rich to resource-poor languages. On average, our tagger performs on par with the state of the art on the same test set of eight languages. However, we use less data and a less sophisticated method which also results in significant difference in speed. In an effort to further improve performance, we investigate the choice of source language. We found that English is rarely the best source language. We successfully built a model that can predict the best source language only based on monolingual data. However, even better predictions can be made if we additionally use parallel data. Finally, we show that, if multiple source languages are available, it is possible to get further improvement by incorporating...