Systém českých číslovek a jejich automatické rozpoznání v textu
System of Czech numerals and their automatic recognition in texts
diploma thesis (DEFENDED)
View/ Open
Permanent link
Study Information System: 43506
- Kvalifikační práce [10932]
Mírovský, Jiří
Faculty / Institute
Faculty of Mathematics and Physics
Software Systems
Institute of Formal and Applied Linguistics
Date of defense
6. 9. 2010
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Very good
Diplomová práce má dva cíle. Prvním je systematické roztřídění českých číslovek a dalších (i víceslovných) kvantitativních výrazů s ohledem na možné využití pro automatické zpracování češtiny. Základem jsou stávající mluvnice češtiny a vlastní vyhledávání v českých jazykových korpusech. Druhým cílem je pak vytvoření programu na rozpoznávání číslovek v českém textu a jejich určení podle systému navrženého v části 1. Součástí programu je i určení morfologických vlastností číslovek, především jejich základního tvaru, rodu, čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané číslicemi, pak program umí takový zápis vygenerovat, přičemž je počítáno i s tím, že pravidla pro správné zapsání číslovek nejsou často dodržována, takže nelze spoléhat na kodifikovaný pravopis.
This thesis has two main goals. The first goal is systematic classification of Czech numerals and other quantitative phrases (including multiple-word) with special regard for possible use during automatic recognition of Czech text. The main source of data for theis classification is current Czech grammar and author's research in Czech language corpora The second goal is development of tool for automatic recognition of numerals in Czech text based on the system developed during the first phase of this thesis. This includes determining basic morphological attributes of numerals and their numeric value, where possible and applicable. The tool is even prepared to deal with the fact, that the gramatic rules for numerals are often disregarded.