Assessing the impact of manual corrections in the Groningen Meaning Bank
Assessing the impact of manual corrections in the Groningen Meaning Bank
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/77214Identifikátory
SIS: 163343
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
3. 2. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
korpus, slovní druhy, anotace, opravy, NLPKlíčová slova (anglicky)
corpus, part-of-speech, annotation, correction, NLPProjekt Groningen Meaning Bank (GMB) vytváří korpus s bohatou syntaktickou a sémantickou anotací. Anotace v GMB jsou generovány poloautomaticky na základě dvou zdrojů: (i) Vstupní anotace ze sady standardních nástrojů pro zpracování přirozeného jazyka (NLP) (ii) Opravy/vylepšení od lidských anotátorů. Například na úrovni anotace slovních druhů existuje 18 000 takových oprav, nazývaných Bits of Wisdom (BOWs). V této práci zkoumáme možnosti zlepšení technik NLP pomocí zapojení těchto informací. V experimentech používáme BOWs pro přetrénování analyzátoru slovních druhů. Zjistili jsme, že analyzátor může být vylepšen tak, aby opravil až 70% nalezených chyb v testovacích datech. Tento zlepšený analyzátor navíc napomáhá ke zlepšení výkonu parseru. Nejspolehlivější cestou se ukázalo být preferování vět s vysokou mírou potvrzených analýz po přetrénování. V experimentu se simulovaným aktivním učením používajícím Query-by-Uncertainty (QBU) a Query- by-Committee (QBC) jsme ukázali, že selektivní vzorkování vět pro přetrénování dává lepší výsledky a vyžaduje méně dat než použití náhodného výběru. V doplňkové pilotní studii jsme zjistili, že standardní analyzátor slovních druhů trénovaný modelem maximální entropie může být rozšířen použitím známých analýz ke zlepšení svých rozhodnutí na celé sekvenci bez přetrénování...
The Groningen Meaning Bank (GMB) project develops a corpus with rich syntactic and semantic annotations. Annotations in GMB are generated semi-automatically and stem from two sources: (i) Initial annotations from a set of standard NLP tools, (ii) Corrections/refinements by human annotators. For example, on the part-of-speech level of annotation there are currently 18,000 of those corrections, so called Bits of Wisdom (BOWs). For applying this information to boost the NLP processing we experiment how to use the BOWs in retraining the part-of-speech tagger and found that it can be improved to correct up to 70% of identified errors within held-out data. Moreover an improved tagger helps to raise the performance of the parser. Preferring sentences with a high rate of verified tags in retraining has proven to be the most reliable way. With a simulated active learning experiment using Query-by-Uncertainty (QBU) and Query-by- Committee (QBC) we proved that selectively sampling sentences for retraining yields better results with less data needed than random selection. In an additional pilot study we found that a standard maximum-entropy part-of-speech tagger can be augmented so that it uses already known tags to enhance its tagging decisions on an entire sequence without retraining a new model first. Powered by...