Počítačový modul stylistického korektoru češtiny
A Style Checker for Czech
rigorous thesis (RECOGNIZED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/3234Identifiers
Study Information System: 43919
Collections
- Kvalifikační práce [10691]
Author
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational and Formal Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
9. 2. 2006
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Recognized
Veěujeme se vybraným problémům na pomezí stylistiky a gramatiky (například atrakce, stupňování, příslovečné spřežky, rozlišení významu spojky nebo, kontaminace, vokalizace předložek). Teoretická část práce obsahuje podrobný rozbor všech zkoumaných jevů, z větší části původní, zejména s ohledem na možnost formálního popisu těchto jevů a na jejich automatickou odhalitelnost. Za nejcennější výsledek této části práce považujeme rozbor atrakcí. Praktická část obsahuje implementaci v jazyce LanGR. Zformulovali a implementovali jsme pravidla, která vyhledávají některé ze zkoumaných jevů v morfologicky označkovaném (obecně nedisambiguovaném) textu. Provedli jsme testování na PDT (1,5 milionu ručně disambiguovaných slov), kde jsme při zachování 100% přesnosti odhalili 59 stylistických chyb. Implementace dále zahrnuje skript pro vokalizaci předložek napsaný v programovacím jazyce Perl.
We have studied selected stylistic and grammatic problems of Czech (e. g. attraction, degrees of comparison, compound adverbs, conjunction nebo meaning determination, crossing of government, vocalization of prepositions). Theoretical part of our work consists of (mostly original) detailed analyses of all the phenomena studied; these analyses focus on the possibilities of the formal description of the phenonema and their automatic detection. We consider the results connected with an analysis of attraction the most valuable asset of this part. The implementation part of the work contains several rules written in the Language for grammatical Rules - LanGR. They are able to find some problematic constructions in morphologically annotated (in principle condisambiguated) text. We performed tests on the Prague Dependency Tree corpus (PDT) (1 500 000 manually disambiguated words), where we succeeded in finding 59 style mistakes keeping absolute precision. The implementation contains also a Perl script for vocalization of prepositions in Czech.