dc.contributor.advisor | Bojar, Ondřej | |
dc.creator | Fanta, Petr | |
dc.date.accessioned | 2017-06-02T06:07:39Z | |
dc.date.available | 2017-06-02T06:07:39Z | |
dc.date.issued | 2017 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/2085 | |
dc.description.abstract | Při ručním překládání krátkých textů, jaké se vyskytují například na sociálních sítích, či mikroblozích (Twitter a podobně), je překladatel často nucen dohledávat doplňující informace v různých zdrojích. Může se jednat o méně běžná slova, o specifické termíny z neznámé domény, či o různé zkratky. V této práci se zabýváme návrhem a implementací systému, který pro danou krátkou textovou zprávu automaticky sestaví minimální kontextově závislý slovník. Systém v překládaném textu vybírá vhodná hesla do slovníku a vyhledává k nim definice, překlady a příklady v otevřených zdrojích, či je automaticky extrahuje z paralelního korpusu. Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. Empirické vyhodnocení se opírá o statistiky sledující, jak často byli uživatelé s navrženými hesly spokojeni, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text. | cs_CZ |
dc.description.abstract | During a manual translation of short texts, such as texts occurring on social networks or microblogs (e.g., Twitter), translators are often forced to gather additional information from various sources. These can include less common words, domain-specific terms, or numerous abbreviations. The aim of this thesis is to design and implement a system which automatically creates a minimal context-dependent dictionary for the given short message. The system identifies suitable dictionary entries in the translated text and searches for their definitions, translations, and examples from available open sources, or extracts them automatically from a parallel corpus. The resulted dictionary is ideally sufficient for human translators to understand the message, and to choose appropriate translation equivalent (including technical terms). An empirical evaluation is based on statistics which tracks how often users were satisfied with the proposed entries, how often the entries were incorrect and to what extent the system correctly identified the relevance for the input text. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Kontextově závislý slovník pro překladatele | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2017 | |
dcterms.dateAccepted | 2017-02-06 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 159696 | |
dc.title.translated | Context-Dependent Dictionary for Translators | en_US |
dc.contributor.referee | Kuboň, Vladislav | |
dc.identifier.aleph | 002125993 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Softwarové systémy | cs_CZ |
thesis.degree.discipline | Software Systems | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové systémy | cs_CZ |
uk.degree-discipline.en | Software Systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Při ručním překládání krátkých textů, jaké se vyskytují například na sociálních sítích, či mikroblozích (Twitter a podobně), je překladatel často nucen dohledávat doplňující informace v různých zdrojích. Může se jednat o méně běžná slova, o specifické termíny z neznámé domény, či o různé zkratky. V této práci se zabýváme návrhem a implementací systému, který pro danou krátkou textovou zprávu automaticky sestaví minimální kontextově závislý slovník. Systém v překládaném textu vybírá vhodná hesla do slovníku a vyhledává k nim definice, překlady a příklady v otevřených zdrojích, či je automaticky extrahuje z paralelního korpusu. Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. Empirické vyhodnocení se opírá o statistiky sledující, jak často byli uživatelé s navrženými hesly spokojeni, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text. | cs_CZ |
uk.abstract.en | During a manual translation of short texts, such as texts occurring on social networks or microblogs (e.g., Twitter), translators are often forced to gather additional information from various sources. These can include less common words, domain-specific terms, or numerous abbreviations. The aim of this thesis is to design and implement a system which automatically creates a minimal context-dependent dictionary for the given short message. The system identifies suitable dictionary entries in the translated text and searches for their definitions, translations, and examples from available open sources, or extracts them automatically from a parallel corpus. The resulted dictionary is ideally sufficient for human translators to understand the message, and to choose appropriate translation equivalent (including technical terms). An empirical evaluation is based on statistics which tracks how often users were satisfied with the proposed entries, how often the entries were incorrect and to what extent the system correctly identified the relevance for the input text. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990021259930106986 | |