Forma a funkce u substantiv v češtině: vztah pádu a syntaktické funkce. Na materiálu korpusu současné psané češtiny (SYN2005)

Jelínek, Tomáš

Form and function of nouns in Czech: relation between nominal case and syntactic function. Based on a synchronic written corpus of Czech (SYN2005)

dizertační práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (309.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/44160

Identifikátory

SIS: 25748

Katalog UK: 990014815110106986

Oponent práce

Lopatková, Markéta

Uličný, Oldřich

Fakulta / součást

Filozofická fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav teoretické a komputační lingvistiky

Datum obhajoby

25. 6. 2012

Nakladatel

Univerzita Karlova, Filozofická fakulta

Jazyk

Čeština

Známka

Prospěl/a

Klíčová slova (česky)

povrchová syntax, čeština, frekvence, substantiva, syntaktické funkce, prostý a předložkový pád, korpus, závislostní syntax

Klíčová slova (anglicky)

surface syntax, Czech, frequency, nouns, syntactic functions, simple and prepositional case, corpus, dependency syntax

Pád je v češtině základním prostředkem morfologické roviny, jímž substantiva vyjadřují svou funkci ve větě. Cílem této práce je popsat z frekvenčního hlediska vztah mezi formou a funkcí substantiv, přesněji řečeno, jak často se prosté a předložkové pády substantiv používají k realizaci syntaktických funkcí ve větě. Práce je založena na rozsáhlém korpusu synchronní psané češtiny SYN2005. Abychom získali údaje o frekvencích syntaktických funkcí substantiv ve vztahu k jejich pádům, opatřili jsme korpus SYN2005 závislostním syntaktickým značkováním, jehož formát jsme převzali z analytické roviny Pražského závislostního korpusu. Syntaktickou anotaci jsme uskutečnili pomocí stochastického MST parseru. Spolehlivost syntaktické anotace však nebyla dostatečně vysoká, vytvořili jsme proto automatický opravný modul, který vyhledává chyby syntaktické anotace ve výstupu stochastického parseru a na základě lingvistických pravidel tyto chyby opravuje. Implementovali jsme 26 různých pravidel, počet chyb anotace se však podařilo snížit jen o 6-8 %. Opravný modul je však možné dále rozvíjet. Lze jím korigovat výstup kteréhokoli závislostního parseru natrénovaného na datech Pražského závislostního korpusu. Syntakticky anotovaný korpus SYN2005 jsme využili jako základ výzkumu frekvence syntaktických funkcí substantiv...

Abstrakt (anglicky)

The case in Czech is the basic morphological means by which nouns express their function in a sentence. The objective of this thesis is to describe, from a frequency point of view, the relation between form and function of nouns, or, more precisely, how frequently cases (both simple and prepositional) are used to realise syntactic functions in sentences. The thesis is based on one of the largest corpora of written synchronic Czech: 100-million-token corpus SYN2005. In order to obtain data on frequencies of syntactic functions of nouns in relation to their cases, we annotated the corpus SYN2005 with a dependency syntactic annotation. For this annotation, we adopted the format of the analytical layer of the Prague Dependency Treebank. The syntactic annotation has been performed by a stochastic parser: the MST parser. Since the reliability of this annotation was not high enough, we have built an automatic correction module, which identifies errors of syntactic annotation in the output of the stochastic parser and corrects these errors by means of linguistic rules. We have implemented 26 different rules, but annotation errors have been reduced by merely 6-8%. However, this correction module can be further developed. It can be used to correct the output of any dependency parser trained on the data from...

Citace dokumentu

Metadata

Zobrazit celý záznam