Automatická extrakce laxikálně-syntaktických údajů z korpusu
Automatic Extraction of Lexico-Syntactic Information from Corpora
rigorózní práce (UZNÁNO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/3236Identifikátory
SIS: 43937
Kolekce
- Kvalifikační práce [11196]
Autor
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
16. 3. 2006
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Uznáno
V práci studujeme možnosti automatizovaného získávání lexikálně-syntaktických údajů z korpusů, konkrétně se zaměřujeme na extrakci slovesných rámců. Upozornili jsme, že pro tento účel korpusy PDT ani ČNK svým rozsahem plně nepostačují. Implementovali jsme jednoduchý nástroj pro selektivní rozšiřování korpusů na základě textů z Internetu. Vyhodnotili jsme tři dostupné syntaktické analyzátory češtiny z často opomíjených, a přesto významných hledisek. Implementovali jsme vlastní systém fi ltrace vstupních vět, který identifi kuje "velmi jednoduché věty". Na těchto větách parsery dosahují vyšší úspěšnosti. Vytvořený systém AX pro filtraci vět je obecný, filtry lze zaměřit na zisk příkladů pro extrakci libovolných typů údajů z korpusu. Systém lze použít mj. k částečné či úplné syntaktické analýze vět a v práci je představen formou uživatelské příručky. Dále studujeme možnosti zpracování pozorovaných rámců na rámce povrchové a valenční. Implementujeme řazení pozorovaných rámců do hierarchie, která je vhodným podkladem pro anotátora. Závěrem upozorňujeme na problémy plně automatického zpracování pozorovaných či povrchových rámců na rámce valenční.
The presented work investigates methods for semi-automatic extraction of lexico-syntactic information from corpora, particularly the information on subcategorization and valency frames. We document that at present time, PDT and CNC corpora are not sufficient for this task. We describe a simple method for a selective extension of corpora based on texts from Internet. We evaluate three parsers available for Czech with respect to the task of extracting verb frames. We have implemented a linguistically motivated ltration of input sentences to identify "very simple sentences", which helps the parsers to achieve better accuracy. The system AX designed in this work is more generic, any kind of linguistic fi ltration can be employed. The system is also suitable for creating partial or full parsers of natural languages. The thesis also presents a user's guide to the system AX. Furthermore, we compare methods for extraction of subcategorization frames from observed frames. We classify observed frames into a hierarchy suitable for human anotators. Finally, several problems of automatic extraction of valency frames are discussed.