Analytical and Tectogrammatical Analysis of a Natural Language
Analytical and Tectogrammatical Analysis of a Natural Language
rigorózní práce (UZNÁNO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/4855Identifikátory
SIS: 44421
Kolekce
- Kvalifikační práce [11217]
Autor
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
27. 11. 2006
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Uznáno
Tato práce předkládá nástroje pro analýzu na analytické tektogramatické rovině, které jsou základem Pražského závislostního korpusu. Nástroje pro analytickou anotaci sestávají ze dvou parserů a nástroje přiřazujícího tzv. analytické funkce. Ačkoli úspěšnost parseru je daleko za úspěšností nejlepších parserů, oba mouhou být chápány jako určitý přínos k parsingu, neboť jsou založeny na nových metodách. Nástroj přiřazující analytické funkce dělá o 15 % chyb méně než nástroj, který se k tomuto účelu používá dosud. Nástroj vyvinutý pro tektogramatickou anotaci je jediný, který tuto úlohu nyní zvládá v takové šíři. Ačkoli jiné, specializované nástroje možná řeší některé její podúlohy lépe, pro češtinu dělá můj násroj o 29 %, resp. 47% méně chyb než kombinace existujících nástrojů určujících tektogramatickou strukturu, resp. hloubkové funktory, což je obojí jádrem tektogramatické roviny. Předkládané nástroje jsou navrženy tak, aby je bylo možno použít i pro jiné jazyky.
The thesis presents tools for analysis at analytical and tectogrammatical layers that the Prague Dependency Treebank is based on. The tools for analytical annotation consist of two parsers and a tool for assigning syntactic tags. Although the performance of the parsers is far below that of the state-of-the-art parsers, they both can be considered a certain contribution to parsing, since the methods they are based on are novel. The tool for assigning syntactic tags makes 15% less errors than a tool used for this purpose previously. The tool developed for tectogrammatical annotation is the only one that can currently perform this task in such a breadth. Although other, specialized tools may have a better performance of some of its particular subtasks, my tool makes 29% and 47% less errors for the Czech language than the combination of existing tools for annotating the tectogrammatical structure and deep functors, respectively, which are the core of the tectogrammatical layer. The proposed tools are designed the way they can be used for other languages as well.