Automatická extrakce laxikálně-syntaktických údajů z korpusu

Bojar, Ondřej

Automatic Extraction of Lexico-Syntactic Information from Corpora

rigorózní práce (UZNÁNO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (19.06Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/3236

Identifikátory

SIS: 43937

Katalog UK: 990014446520106986

Kolekce

Kvalifikační práce [12366]

Autor

Bojar, Ondřej

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Počítačová a formální lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

16. 3. 2006

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Uznáno

V práci studujeme možnosti automatizovaného získávání lexikálně-syntaktických údajů z korpusů, konkrétně se zaměřujeme na extrakci slovesných rámců. Upozornili jsme, že pro tento účel korpusy PDT ani ČNK svým rozsahem plně nepostačují. Implementovali jsme jednoduchý nástroj pro selektivní rozšiřování korpusů na základě textů z Internetu. Vyhodnotili jsme tři dostupné syntaktické analyzátory češtiny z často opomíjených, a přesto významných hledisek. Implementovali jsme vlastní systém fi ltrace vstupních vět, který identifi kuje "velmi jednoduché věty". Na těchto větách parsery dosahují vyšší úspěšnosti. Vytvořený systém AX pro filtraci vět je obecný, filtry lze zaměřit na zisk příkladů pro extrakci libovolných typů údajů z korpusu. Systém lze použít mj. k částečné či úplné syntaktické analýze vět a v práci je představen formou uživatelské příručky. Dále studujeme možnosti zpracování pozorovaných rámců na rámce povrchové a valenční. Implementujeme řazení pozorovaných rámců do hierarchie, která je vhodným podkladem pro anotátora. Závěrem upozorňujeme na problémy plně automatického zpracování pozorovaných či povrchových rámců na rámce valenční.

Abstrakt (anglicky)

The presented work investigates methods for semi-automatic extraction of lexico-syntactic information from corpora, particularly the information on subcategorization and valency frames. We document that at present time, PDT and CNC corpora are not sufficient for this task. We describe a simple method for a selective extension of corpora based on texts from Internet. We evaluate three parsers available for Czech with respect to the task of extracting verb frames. We have implemented a linguistically motivated ltration of input sentences to identify "very simple sentences", which helps the parsers to achieve better accuracy. The system AX designed in this work is more generic, any kind of linguistic fi ltration can be employed. The system is also suitable for creating partial or full parsers of natural languages. The thesis also presents a user's guide to the system AX. Furthermore, we compare methods for extraction of subcategorization frames from observed frames. We classify observed frames into a hierarchy suitable for human anotators. Finally, several problems of automatic extraction of valency frames are discussed.

Citace dokumentu

Metadata

Zobrazit celý záznam