Robust Parsing of Noisy Content
Robustní parsing zašuměného obsah
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/52111Identifiers
Study Information System: 130111
CU Caralogue: 990016207980106986
Collections
- Kvalifikační práce [11981]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
2. 9. 2013
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
závislostní syntax, syntaktická analýza, parsing, doménová adaptaceKeywords (English)
dependency syntax, parsing, domain adaptationAčkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
While parsing performance on in-domain text has developed steadily in recent years, out-of-domain text and grammatically noisy text remain an obstacle and often lead to significant decreases in parsing accuracy. In this thesis, we focus on the parsing of noisy content, such as user-generated content in services like Twitter. We investigate the question whether a preprocessing step based on machine translation techniques and unsupervised models for text-normalization can improve parsing performance on noisy data. Existing data sets are evaluated and a new data set for dependency parsing of grammatically noisy Twitter data is introduced. We show that text-normalization together with a combination of domain-specific and generic part-of-speech taggers can lead to a significant improvement in parsing accuracy. Powered by TCPDF (www.tcpdf.org)
