Assessing the impact of manual corrections in the Groningen Meaning Bank
Assessing the impact of manual corrections in the Groningen Meaning Bank
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/77214Identifiers
Study Information System: 163343
Collections
- Kvalifikační práce [10926]
Author
Advisor
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
3. 2. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
korpus, slovní druhy, anotace, opravy, NLPKeywords (English)
corpus, part-of-speech, annotation, correction, NLPProjekt Groningen Meaning Bank (GMB) vytváří korpus s bohatou syntaktickou a sémantickou anotací. Anotace v GMB jsou generovány poloautomaticky na základě dvou zdrojů: (i) Vstupní anotace ze sady standardních nástrojů pro zpracování přirozeného jazyka (NLP) (ii) Opravy/vylepšení od lidských anotátorů. Například na úrovni anotace slovních druhů existuje 18 000 takových oprav, nazývaných Bits of Wisdom (BOWs). V této práci zkoumáme možnosti zlepšení technik NLP pomocí zapojení těchto informací. V experimentech používáme BOWs pro přetrénování analyzátoru slovních druhů. Zjistili jsme, že analyzátor může být vylepšen tak, aby opravil až 70% nalezených chyb v testovacích datech. Tento zlepšený analyzátor navíc napomáhá ke zlepšení výkonu parseru. Nejspolehlivější cestou se ukázalo být preferování vět s vysokou mírou potvrzených analýz po přetrénování. V experimentu se simulovaným aktivním učením používajícím Query-by-Uncertainty (QBU) a Query- by-Committee (QBC) jsme ukázali, že selektivní vzorkování vět pro přetrénování dává lepší výsledky a vyžaduje méně dat než použití náhodného výběru. V doplňkové pilotní studii jsme zjistili, že standardní analyzátor slovních druhů trénovaný modelem maximální entropie může být rozšířen použitím známých analýz ke zlepšení svých rozhodnutí na celé sekvenci bez přetrénování...
The Groningen Meaning Bank (GMB) project develops a corpus with rich syntactic and semantic annotations. Annotations in GMB are generated semi-automatically and stem from two sources: (i) Initial annotations from a set of standard NLP tools, (ii) Corrections/refinements by human annotators. For example, on the part-of-speech level of annotation there are currently 18,000 of those corrections, so called Bits of Wisdom (BOWs). For applying this information to boost the NLP processing we experiment how to use the BOWs in retraining the part-of-speech tagger and found that it can be improved to correct up to 70% of identified errors within held-out data. Moreover an improved tagger helps to raise the performance of the parser. Preferring sentences with a high rate of verified tags in retraining has proven to be the most reliable way. With a simulated active learning experiment using Query-by-Uncertainty (QBU) and Query-by- Committee (QBC) we proved that selectively sampling sentences for retraining yields better results with less data needed than random selection. In an additional pilot study we found that a standard maximum-entropy part-of-speech tagger can be augmented so that it uses already known tags to enhance its tagging decisions on an entire sequence without retraining a new model first. Powered by...