Kontextově závislý slovník pro překladatele
Context-Dependent Dictionary for Translators
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/2085Identifiers
Study Information System: 159696
Collections
- Kvalifikační práce [11196]
Author
Advisor
Referee
Kuboň, Vladislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Institute of Formal and Applied Linguistics
Date of defense
6. 2. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Při ručním překládání krátkých textů, jaké se vyskytují například na sociálních sítích, či mikroblozích (Twitter a podobně), je překladatel často nucen dohledávat doplňující informace v různých zdrojích. Může se jednat o méně běžná slova, o specifické termíny z neznámé domény, či o různé zkratky. V této práci se zabýváme návrhem a implementací systému, který pro danou krátkou textovou zprávu automaticky sestaví minimální kontextově závislý slovník. Systém v překládaném textu vybírá vhodná hesla do slovníku a vyhledává k nim definice, překlady a příklady v otevřených zdrojích, či je automaticky extrahuje z paralelního korpusu. Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. Empirické vyhodnocení se opírá o statistiky sledující, jak často byli uživatelé s navrženými hesly spokojeni, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text.
During a manual translation of short texts, such as texts occurring on social networks or microblogs (e.g., Twitter), translators are often forced to gather additional information from various sources. These can include less common words, domain-specific terms, or numerous abbreviations. The aim of this thesis is to design and implement a system which automatically creates a minimal context-dependent dictionary for the given short message. The system identifies suitable dictionary entries in the translated text and searches for their definitions, translations, and examples from available open sources, or extracts them automatically from a parallel corpus. The resulted dictionary is ideally sufficient for human translators to understand the message, and to choose appropriate translation equivalent (including technical terms). An empirical evaluation is based on statistics which tracks how often users were satisfied with the proposed entries, how often the entries were incorrect and to what extent the system correctly identified the relevance for the input text.