Show simple item record

Zpracování tureckých jazyků
dc.contributor.advisorZeman, Daniel
dc.creatorCiddi, Sibel
dc.date.accessioned2017-05-15T13:04:24Z
dc.date.available2017-05-15T13:04:24Z
dc.date.issued2013
dc.identifier.urihttp://hdl.handle.net/20.500.11956/51669
dc.description.abstractTato práce se zabývá několika kombinovanými metodami morfologického zpracování turkických jazyků, zejména turečtiny. Sou- částí našich snah bylo i obstarání větších zdrojů jazykových dat, než jaké jsou v současnosti k dispozici, a jejich zpřístupnění veřejnosti. Počítačové zpracování turečtiny zahrnuje specifickou sadu problémů spojených zejména s vysoce produktivní, aglutinační morfologií. Roz- sah veřejně dostupných dat je s ohledem na čistě statistické metody nedostatečný a pro účely strojového učení jsou tato data příliš řídká. Z tohoto důvodu vyhodnocujeme veřejně dostupný morfologický analyzátor TRmorph, založený na konečných převodnících, tedy na pravidlech. Snažíme se rozšířit záběr a slovník tohoto analyzátoru; kombinujeme statistické metody s heuristikami pro rozpoznávání pojmenovaných entit (a konstrukci zeměpisných slovníků), zjednoznačnění morfologické analýzy a zpracování víceslovných výrazů. Výsledky dosavadních experimentů s heuristickými přístupy ukazují slibné rozší- ření pokrytí textu TRmorphem. Statistické metody používáme jako záložní řešení pro jemnější úlohy, které nelze snadno zachytit heuristickými pravidly. Tímto způsobem náš hybridní systém rozšiřuje uplatnění morfologického analyzátoru, jenž je sám postaven čistě na pravidlech. Powered by TCPDF (www.tcpdf.org)cs_CZ
dc.description.abstractThis thesis aims to present several combined methods for the morphological processing of Turkic languages, such as Turkish, which pose a specific set of challenges for computational processing, and also aims to make larger data sets publicly available. Because of the highly productive, agglutinative morphology in Turkish, data sparsity---besides the lack of the publicly available large data sets---impose difficulties in natural language processing, especially with regards to relying on purely statistical methods. Therefore, we evaluate a publicly available rule-based morphological analyzer, TRmorph, based on finite state transducers. In order to enhance the efficiency of this analyzer, and to expand its lexicon; we combine statistical and heuristics-based methods for the named entity processing (and construction of gazetteers), morphological disambiguation task and the multiword expression processing. Experiment results obtained so far point out that the use of heuristic-methods provides promising coverage increase for the text being processed by TRmorph, while the statistical approach is used as a back-up for more fine-grained tasks that may not be captured by pattern-based heuristics approach. This way, our proposed combined approach enhances the efficiency of a morphological analyzer based purely on FST...en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectmorfologická analýzacs_CZ
dc.subjectvalencecs_CZ
dc.subjectslovníkcs_CZ
dc.subjectmorphological analysisen_US
dc.subjectvalencyen_US
dc.subjectdictionaryen_US
dc.titleProcessing of Turkic Languagesen_US
dc.typediplomová prácecs_CZ
dcterms.created2013
dcterms.dateAccepted2013-09-02
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId130118
dc.title.translatedZpracování tureckých jazykůcs_CZ
dc.contributor.refereeLopatková, Markéta
dc.identifier.aleph001620799
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csNeprospělcs_CZ
thesis.grade.enFailen_US
uk.abstract.csTato práce se zabývá několika kombinovanými metodami morfologického zpracování turkických jazyků, zejména turečtiny. Sou- částí našich snah bylo i obstarání větších zdrojů jazykových dat, než jaké jsou v současnosti k dispozici, a jejich zpřístupnění veřejnosti. Počítačové zpracování turečtiny zahrnuje specifickou sadu problémů spojených zejména s vysoce produktivní, aglutinační morfologií. Roz- sah veřejně dostupných dat je s ohledem na čistě statistické metody nedostatečný a pro účely strojového učení jsou tato data příliš řídká. Z tohoto důvodu vyhodnocujeme veřejně dostupný morfologický analyzátor TRmorph, založený na konečných převodnících, tedy na pravidlech. Snažíme se rozšířit záběr a slovník tohoto analyzátoru; kombinujeme statistické metody s heuristikami pro rozpoznávání pojmenovaných entit (a konstrukci zeměpisných slovníků), zjednoznačnění morfologické analýzy a zpracování víceslovných výrazů. Výsledky dosavadních experimentů s heuristickými přístupy ukazují slibné rozší- ření pokrytí textu TRmorphem. Statistické metody používáme jako záložní řešení pro jemnější úlohy, které nelze snadno zachytit heuristickými pravidly. Tímto způsobem náš hybridní systém rozšiřuje uplatnění morfologického analyzátoru, jenž je sám postaven čistě na pravidlech. Powered by TCPDF (www.tcpdf.org)cs_CZ
uk.abstract.enThis thesis aims to present several combined methods for the morphological processing of Turkic languages, such as Turkish, which pose a specific set of challenges for computational processing, and also aims to make larger data sets publicly available. Because of the highly productive, agglutinative morphology in Turkish, data sparsity---besides the lack of the publicly available large data sets---impose difficulties in natural language processing, especially with regards to relying on purely statistical methods. Therefore, we evaluate a publicly available rule-based morphological analyzer, TRmorph, based on finite state transducers. In order to enhance the efficiency of this analyzer, and to expand its lexicon; we combine statistical and heuristics-based methods for the named entity processing (and construction of gazetteers), morphological disambiguation task and the multiword expression processing. Experiment results obtained so far point out that the use of heuristic-methods provides promising coverage increase for the text being processed by TRmorph, while the statistical approach is used as a back-up for more fine-grained tasks that may not be captured by pattern-based heuristics approach. This way, our proposed combined approach enhances the efficiency of a morphological analyzer based purely on FST...en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV