Zobrazit minimální záznam

Czech NLP with Contextualized Embeddings
dc.contributor.advisorStraka, Milan
dc.creatorVysušilová, Petra
dc.date.accessioned2022-04-06T11:04:13Z
dc.date.available2022-04-06T11:04:13Z
dc.date.issued2021
dc.identifier.urihttp://hdl.handle.net/20.500.11956/147648
dc.description.abstractS rostoucím objemem dat, zejména nestrukturovaného textu, roste důleži- tost zpracování přirozeného jazyka. Nejmodernějšími technologiemi posledních let jsou neuronové sítě. Tato práce aplikuje nejúspěšnější metody, jmenovitě Bi- directional Encoders Representations from Transformers (BERT), na tři české úlohy ve zpracování přirozeného jazyka - lematizaci, morfologické značkování a analýzu sentimentu. Použili jsme BERTa s jednoduchou klasifikační hlavou na tři české dataset pro analýzu sentimentu: mall, facebook a csfd a dosáhli jsme state-of-the-art výsledků. Také jsme prozkoumaly několik možných postupů tré- nování pro úlohy značkování a lematizace a obdrželi jsme nové state-of-the-art výsledky pro Pražský závislostní korpus v obou úlohách pomocí fine-tunningu. Konkrétně jsme dosáhli přesnosti 98.57% pro značkování, 99.00% pro lemati- zaci a 98.19% pro společné ohodnocení. Nejlepší modely pro všechny úlohy jsou veřejně dostupné. 1cs_CZ
dc.description.abstractWith the increasing amount of digital data in the form of unstructured text, the importance of natural language processing (NLP) increases. The most suc- cessful technologies of recent years are deep neural networks. This work applies the state-of-the-art methods, namely transfer learning of Bidirectional Encoders Representations from Transformers (BERT), on three Czech NLP tasks: part- of-speech tagging, lemmatization and sentiment analysis. We applied BERT model with a simple classification head on three Czech sentiment datasets: mall, facebook, and csfd, and we achieved state-of-the-art results. We also explored several possible architectures for tagging and lemmatization and obtained new state-of-the-art results in both tagging and lemmatization with fine-tunning ap- proach on data from Prague Dependency Treebank. Specifically, we achieved accuracy 98.57% for tagging, 99.00% for lemmatization, and 98.19% for joint accuracy of both tasks. Best models for all tasks are publicly available. 1en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectCzech|natural language processing|contextualized word embeddings|BERTen_US
dc.subjectčeština|zpracování přirozeného jazyka|kontextualizované slovní reprezentace|BERTcs_CZ
dc.titleZpracování češtiny s využitím kontextualizované reprezentacecs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2021
dcterms.dateAccepted2021-09-02
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId223946
dc.title.translatedCzech NLP with Contextualized Embeddingsen_US
dc.contributor.refereeHajič, Jan
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csS rostoucím objemem dat, zejména nestrukturovaného textu, roste důleži- tost zpracování přirozeného jazyka. Nejmodernějšími technologiemi posledních let jsou neuronové sítě. Tato práce aplikuje nejúspěšnější metody, jmenovitě Bi- directional Encoders Representations from Transformers (BERT), na tři české úlohy ve zpracování přirozeného jazyka - lematizaci, morfologické značkování a analýzu sentimentu. Použili jsme BERTa s jednoduchou klasifikační hlavou na tři české dataset pro analýzu sentimentu: mall, facebook a csfd a dosáhli jsme state-of-the-art výsledků. Také jsme prozkoumaly několik možných postupů tré- nování pro úlohy značkování a lematizace a obdrželi jsme nové state-of-the-art výsledky pro Pražský závislostní korpus v obou úlohách pomocí fine-tunningu. Konkrétně jsme dosáhli přesnosti 98.57% pro značkování, 99.00% pro lemati- zaci a 98.19% pro společné ohodnocení. Nejlepší modely pro všechny úlohy jsou veřejně dostupné. 1cs_CZ
uk.abstract.enWith the increasing amount of digital data in the form of unstructured text, the importance of natural language processing (NLP) increases. The most suc- cessful technologies of recent years are deep neural networks. This work applies the state-of-the-art methods, namely transfer learning of Bidirectional Encoders Representations from Transformers (BERT), on three Czech NLP tasks: part- of-speech tagging, lemmatization and sentiment analysis. We applied BERT model with a simple classification head on three Czech sentiment datasets: mall, facebook, and csfd, and we achieved state-of-the-art results. We also explored several possible architectures for tagging and lemmatization and obtained new state-of-the-art results in both tagging and lemmatization with fine-tunning ap- proach on data from Prague Dependency Treebank. Specifically, we achieved accuracy 98.57% for tagging, 99.00% for lemmatization, and 98.19% for joint accuracy of both tasks. Best models for all tasks are publicly available. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV