Text simplification in Czech
Zjednodušování textu v češtině
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/85646Identifiers
Study Information System: 187012
Collections
- Kvalifikační práce [10690]
Author
Advisor
Referee
Bejček, Eduard
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 6. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
zjednodušování textu, lexikální zjednodušování, čtivost, srozumitelnostKeywords (English)
text simplification, lexical simplification, readability, understandabilityPráce se zabývá zjednodušováním textu v češtině, zejména lexikálním zjednodušováním, tedy na- hrazováním složitých slov za jednodušší. V práci je implementováno a vyhodnoceno několik různých způsobů určování složitých slov, generování náhrad a hodnocení náhrad. Generování náhrad je testováno jak za pomoci slovníků, tak za pomoci slovních embeddingů. Práce dále představuje několik pokusů s lidmi. Tyto pokusy mají za cíl pomoci získat náhled do problematiky vnímané složitosti a faktorů, které ji ovlivňují. Provedené a vyhodnocené experimenty zahrnují porovnávání dvojic vět a ruční zjednodu- šování textu. V práci je uvedeno jak vyhodnocení jednotlivých způsobů řešení problému, tak výstupy provedených experimentů s lidmi; a jsou doporučeny i navazující směry práce. 1
This thesis deals with text simplification in Czech, in particular with lexical simplification. Several strategies of complex word identification, substitution generation and substitution ranking are implemented and evaluated. Substitution generation is attempted both in a dictionary-based manner and in an embedding- based manner. Some experiments involving people are also presented, the experiments aim at gaining an in- sight into perceived simplicity/complexity and its factors. The experiments conducted and evaluated include sentence pair comparison and manual text simplification. Both the evaluation results of various strategies and the outcomes of experiments involving humans are described and some future work is suggested. 1