Unsupervised and Semi-Supervised Multilingual Learning for Resource-Poor Languages
Unsupervised and Semi-Supervised Multilingual Learning for Resource-Poor Languages
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/40830Identifiers
Study Information System: 115652
Collections
- Kvalifikační práce [10928]
Author
Advisor
Consultant
Žabokrtský, Zdeněk
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 9. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
přirozený jazyk, strojové učení, morfologie, syntaxeKeywords (English)
natural language, machine learning, morphology, syntaxPra ce se zaměřuje na neř zenou morfologickou segmentaci, jednu ze za kladn ch u loh poč tačov eho zpracov an přirozen eho jazyka. V t eto u loze je c lem rozložit slova na morf emy. Popisuji a reim- plementuji model navrženy v Lee et al. (2011) a vyhodnocuji ho na 4 jazyc ch. Nav c navrhuji generativn model, ktery dok aže využ t reprezentaci slov jako př davn e rysy. Slovn reprezentace jsou rovněž z sk ava ny neř zeny m zp usobem pomoc strojov eho učen a neuronov eho jazykov eho modelu. Pokusy ukazuj , že s využit m těchto př davny ch rys u celkova u spěšnost neř zen eho modelu vzr usta .
This thesis focuses on unsupervised morphological seg- mentation, the fundamental task in NLP which aims to break words into morphemes. I describe and re-implement a model proposed in Lee et al. (2011) and evaluate it on 4 languages. Moreover, I present a generative model that could use word representation as extra fea- tures. The word representations are leant in unsupervised manner using neural language model. The experiment shows that using extra features improves the performance of the unsupervised model.