Show simple item record

Zpracování turkických jazyků
dc.contributor.advisorZeman, Daniel
dc.creatorCiddi, Sibel
dc.date.accessioned2017-05-15T23:18:07Z
dc.date.available2017-05-15T23:18:07Z
dc.date.issued2014
dc.identifier.urihttp://hdl.handle.net/20.500.11956/53790
dc.description.abstractNázev: Zpracování turkických jazyků Autor: Sibel Ciddi Katedra: Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze Vedoucí diplomové práce: RNDr. Daniel Zeman, Ph.D. Abstrakt: Tato práce představuje a na příkladu turečtiny demon- struje několik metod morfologického zpracování vhodných pro tur- kické jazyky, jejichž počítačové zpracování přináší sadu specifických problémů. Přínosem práce je také značné rozšíření lexikální databáze a souvisejících dat potřebných pro morfologickou analýzu a syntézu; tato data jsou nyní volně dostupná veřejnosti. S ohledem na vysoce produktivní a aglutinační tureckou morfologii a s ní spojenou řídkost dat byl omezený rozsah slovníku významnou překážkou počítačového zpracování jazyka, zvláště pokud jde o zpracování statistickými me- todami. Proto jsme důkladně otestovali a vyhodnotili veřejně do- stupný, na konečných převodnících založený morfologický analyzátor TRmorph. Zaměřili jsme se na rozšíření záběru a slovníku tohoto ana- lyzátoru. Za tím účelem jsme navrhli heuristické metody pro získávání pojmenovaných entit a víceslovných výrazů. Další vylepšení spočívá ve slovníkovém rozpoznávání...cs_CZ
dc.description.abstractTitle: Processing of Turkic Languages Author: Sibel Ciddi Department: Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University in Prague Supervisor: RNDr. Daniel Zeman, Ph.D. Abstract: This thesis presents several methods for the morpholog- ical processing of Turkic languages, such as Turkish, which pose a specific set of challenges for natural language processing. In order to alleviate the problems with lack of large language resources, it makes the data sets used for morphological processing and expansion of lex- icons publicly available for further use by researchers. Data sparsity, caused by highly productive and agglutinative morphology in Turkish, imposes difficulties in processing of Turkish text, especially for meth- ods using purely statistical natural language processing. Therefore, we evaluated a publicly available rule-based morphological analyzer, TRmorph, based on finite state methods and technologies. In order to enhance the efficiency of this analyzer, we worked on expansion of lexicons, by employing heuristics-based methods for the extraction of named entities and multi-word expressions. Furthermore, as a prepro- cessing step, we introduced a dictionary-based recognition method for tokenization of multi-word expressions. This method complements...en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectmorfologická analýzacs_CZ
dc.subjectkonečný převodníkcs_CZ
dc.subjectkonečný automatcs_CZ
dc.subjectrozpoznávání pojmenovaných entitcs_CZ
dc.subjectrozpoznávání víceslovných výrazůcs_CZ
dc.subjectmorfologická a lexikální nejednoznačnostcs_CZ
dc.subjectmorphological analysisen_US
dc.subjectfinite-state transduceren_US
dc.subjectfinite-state automataen_US
dc.subjectrecognition and tokenization of named entitiesen_US
dc.subjectand multi-word expressionsen_US
dc.subjectmorphological &ampen_US
dc.subjectlexical ambiguityen_US
dc.titleProcessing of Turkic Languagesen_US
dc.typediplomová prácecs_CZ
dcterms.created2014
dcterms.dateAccepted2014-02-03
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId145099
dc.title.translatedZpracování turkických jazykůcs_CZ
dc.contributor.refereeHlaváčová, Jaroslava
dc.identifier.aleph001680298
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVelmi dobřecs_CZ
thesis.grade.enVery gooden_US
uk.abstract.csNázev: Zpracování turkických jazyků Autor: Sibel Ciddi Katedra: Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze Vedoucí diplomové práce: RNDr. Daniel Zeman, Ph.D. Abstrakt: Tato práce představuje a na příkladu turečtiny demon- struje několik metod morfologického zpracování vhodných pro tur- kické jazyky, jejichž počítačové zpracování přináší sadu specifických problémů. Přínosem práce je také značné rozšíření lexikální databáze a souvisejících dat potřebných pro morfologickou analýzu a syntézu; tato data jsou nyní volně dostupná veřejnosti. S ohledem na vysoce produktivní a aglutinační tureckou morfologii a s ní spojenou řídkost dat byl omezený rozsah slovníku významnou překážkou počítačového zpracování jazyka, zvláště pokud jde o zpracování statistickými me- todami. Proto jsme důkladně otestovali a vyhodnotili veřejně do- stupný, na konečných převodnících založený morfologický analyzátor TRmorph. Zaměřili jsme se na rozšíření záběru a slovníku tohoto ana- lyzátoru. Za tím účelem jsme navrhli heuristické metody pro získávání pojmenovaných entit a víceslovných výrazů. Další vylepšení spočívá ve slovníkovém rozpoznávání...cs_CZ
uk.abstract.enTitle: Processing of Turkic Languages Author: Sibel Ciddi Department: Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University in Prague Supervisor: RNDr. Daniel Zeman, Ph.D. Abstract: This thesis presents several methods for the morpholog- ical processing of Turkic languages, such as Turkish, which pose a specific set of challenges for natural language processing. In order to alleviate the problems with lack of large language resources, it makes the data sets used for morphological processing and expansion of lex- icons publicly available for further use by researchers. Data sparsity, caused by highly productive and agglutinative morphology in Turkish, imposes difficulties in processing of Turkish text, especially for meth- ods using purely statistical natural language processing. Therefore, we evaluated a publicly available rule-based morphological analyzer, TRmorph, based on finite state methods and technologies. In order to enhance the efficiency of this analyzer, we worked on expansion of lexicons, by employing heuristics-based methods for the extraction of named entities and multi-word expressions. Furthermore, as a prepro- cessing step, we introduced a dictionary-based recognition method for tokenization of multi-word expressions. This method complements...en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV