Formalizace systému české morfologie s ohledem na automatické zpracování českých textů
Formalization of the Czech morphology system with respect to automatic processing of Czech texts
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/21162Identifiers
Study Information System: 24570
Collections
- Kvalifikační práce [23775]
Author
Advisor
Referee
Oliva, Karel
Osolsobě, Klára
Faculty / Institute
Faculty of Arts
Discipline
Mathematical Linguistics
Department
Institute of the Czech National Corpus
Date of defense
22. 5. 2009
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Pass
Přesný morfologický popis slovních tvar· je prvním předpokladem pro úspné automatické zpracování jazykových dat. Systém kategorií a jejich hodnot, které se k popisu pouoívají, jsou náplní první ásti práce. Základním principem je tzv. Zlaté pravidlo morfologie, které říká, oe kaodý slovní tvar by ml být v systému popsán jednoznan. Existence variant na úrovni slovních tvar· i celých paradigmat vak splnní tohoto pravidla komplikuje. Koncept variant roziřujeme na tzv. mutace, mezi které řadíme i jiné mnooiny slovních tvar· se stejným popisem (např. víceré tvary osobn ích zájmen). Mutace dlíme na globální pro popis na úrovni paradigmat a ektivní pro popis jednotlivých slovních tvar·. Toto rozdlení nám umooňuje postihnout jejich asté kombinace. Upoutíme od dlení variant (mutací) podle stylového příznaku jako neobjektivního kritéria. Při d·sledném vyuoívání hodnot kategorií Flektivní mutace a Globální mutace z·stane Zlaté pravidlo morfologie vody splnno. V kapitole o lemmatizaci zavádíme vícenásobné lemma pro popis variantn ích lemmat. Podrobn se zabýváme popisem tzv. slooenin, tedy slovních tvar· typu za, proň, koupilas, koliks. Pro jejich lemmatizaci rovno vyuoíváme konceptu ví- cenásobného lemmatu. Podle slovních druh· jejich slooek je dlíme na nkolik typ·. Zabýváme se téo problémem jejich vyhledávání v...
Detailed morphological description of word forms represents one of the most important conditions of a successful automatic processing of linguistic data. The system of categories and their values which are used for the description are the subject of the rst part of the thesis. The basic principle, so-called Golden rule of morphology, states that every word form has to be described by the system unambiguously. The existence of variants of word forms and whole paradigms, however, complicates the accomplishment of this rule.We introduce so called mutations as an extension of the variants to be able to include other sets of word forms with the same description (for instance multiple word forms of Czech personal pronouns). We divide mutations into two parts global ones describing all word forms of a paradigm, and in ectional ones for the description on the word form level. This division enables us to express their various combinations. We do not use features of style for the mutation division, for they are subjective. With a consistent use of the categories called In ectional Mutation and Global Mutation, the Golden rule of morphology will always be valid. The concept of multiple lemma is introduced in a chapter dealing with lemmatization. It describes lemma variants. We give a detailed description of so-called...