Pravděpodobnostní překladový slovník

Rouš, Jan

Pravděpodobnostní překladový slovník

dc.contributor.advisor	Žabokrtský, Zdeněk
dc.creator	Rouš, Jan
dc.date.accessioned	2017-04-21T06:11:12Z
dc.date.available	2017-04-21T06:11:12Z
dc.date.issued	2009
dc.identifier.uri	http://hdl.handle.net/20.500.11956/30597
dc.description.abstract	V této práci popisujeme poloautomatickou metodu trénování pravděpodobnostního překladového slovníku z rozssáhlých automaticky anotovaných paralelních korpusů. Na základě studia překladových chyb a funkce slovníku v rámci překladového systému TectoMT obecně byly navrženy modely různé složitosti. Tyto základní modely byly zkombinovány do hierarchických modelů, jejichž účel je snížit dopad problému řídkých dat. Slovník byl doplněn o rozšíření, která jsou navržena tak, aby odstraňovala časté problémy lexikálního charakteru. Slovník spolu s rozšířeními byl na testovacích datech porovnán s původním slovníkem a výsledky ukazují, že došlo k zvýšení kvality překladu.	cs_CZ
dc.description.abstract	In this work we present the method of semi-automatic training of the probabilistic translation dictionary using large automatically annotated parallel corpora. According to the study of translation errors and the role of translation dictionary within the TectoMt translatio system in general we propose models of various complexity. These basic models were combined to hierarchical models that were designed to reduce impact of the sparse data problem. Various extensions were implemented to deal with common lexical errors. The dictionary along with extensions was compared to the former approach on test data and the results show improved translation quality.	en_US
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.title	Pravděpodobnostní překladový slovník	en_US
dc.type	diplomová práce	cs_CZ
dcterms.created	2009
dcterms.dateAccepted	2009-09-14
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	49374
dc.title.translated	Pravděpodobnostní překladový slovník	cs_CZ
dc.contributor.referee	Pecina, Pavel
dc.identifier.aleph	001132584
thesis.degree.name	Mgr.
thesis.degree.level	magisterské	cs_CZ
thesis.degree.discipline	Počítačová a formální lingvistika	cs_CZ
thesis.degree.discipline	Computational and Formal Linguistics	en_US
thesis.degree.program	Informatika	cs_CZ
thesis.degree.program	Informatics	en_US
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Počítačová a formální lingvistika	cs_CZ
uk.degree-discipline.en	Computational and Formal Linguistics	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Informatics	en_US
thesis.grade.cs	Dobře	cs_CZ
thesis.grade.en	Good	en_US
uk.abstract.cs	V této práci popisujeme poloautomatickou metodu trénování pravděpodobnostního překladového slovníku z rozssáhlých automaticky anotovaných paralelních korpusů. Na základě studia překladových chyb a funkce slovníku v rámci překladového systému TectoMT obecně byly navrženy modely různé složitosti. Tyto základní modely byly zkombinovány do hierarchických modelů, jejichž účel je snížit dopad problému řídkých dat. Slovník byl doplněn o rozšíření, která jsou navržena tak, aby odstraňovala časté problémy lexikálního charakteru. Slovník spolu s rozšířeními byl na testovacích datech porovnán s původním slovníkem a výsledky ukazují, že došlo k zvýšení kvality překladu.	cs_CZ
uk.abstract.en	In this work we present the method of semi-automatic training of the probabilistic translation dictionary using large automatically annotated parallel corpora. According to the study of translation errors and the role of translation dictionary within the TectoMt translatio system in general we propose models of various complexity. These basic models were combined to hierarchical models that were designed to reduce impact of the sparse data problem. Various extensions were implemented to deal with common lexical errors. The dictionary along with extensions was compared to the former approach on test data and the results show improved translation quality.	en_US
uk.publication.place	Praha	cs_CZ
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
dc.identifier.lisID	990011325840106986