dc.contributor.advisor | Straka, Milan | |
dc.creator | Vysušilová, Petra | |
dc.date.accessioned | 2022-04-06T11:04:13Z | |
dc.date.available | 2022-04-06T11:04:13Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/147648 | |
dc.description.abstract | S rostoucím objemem dat, zejména nestrukturovaného textu, roste důleži- tost zpracování přirozeného jazyka. Nejmodernějšími technologiemi posledních let jsou neuronové sítě. Tato práce aplikuje nejúspěšnější metody, jmenovitě Bi- directional Encoders Representations from Transformers (BERT), na tři české úlohy ve zpracování přirozeného jazyka - lematizaci, morfologické značkování a analýzu sentimentu. Použili jsme BERTa s jednoduchou klasifikační hlavou na tři české dataset pro analýzu sentimentu: mall, facebook a csfd a dosáhli jsme state-of-the-art výsledků. Také jsme prozkoumaly několik možných postupů tré- nování pro úlohy značkování a lematizace a obdrželi jsme nové state-of-the-art výsledky pro Pražský závislostní korpus v obou úlohách pomocí fine-tunningu. Konkrétně jsme dosáhli přesnosti 98.57% pro značkování, 99.00% pro lemati- zaci a 98.19% pro společné ohodnocení. Nejlepší modely pro všechny úlohy jsou veřejně dostupné. 1 | cs_CZ |
dc.description.abstract | With the increasing amount of digital data in the form of unstructured text, the importance of natural language processing (NLP) increases. The most suc- cessful technologies of recent years are deep neural networks. This work applies the state-of-the-art methods, namely transfer learning of Bidirectional Encoders Representations from Transformers (BERT), on three Czech NLP tasks: part- of-speech tagging, lemmatization and sentiment analysis. We applied BERT model with a simple classification head on three Czech sentiment datasets: mall, facebook, and csfd, and we achieved state-of-the-art results. We also explored several possible architectures for tagging and lemmatization and obtained new state-of-the-art results in both tagging and lemmatization with fine-tunning ap- proach on data from Prague Dependency Treebank. Specifically, we achieved accuracy 98.57% for tagging, 99.00% for lemmatization, and 98.19% for joint accuracy of both tasks. Best models for all tasks are publicly available. 1 | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Czech|natural language processing|contextualized word embeddings|BERT | en_US |
dc.subject | čeština|zpracování přirozeného jazyka|kontextualizované slovní reprezentace|BERT | cs_CZ |
dc.title | Zpracování češtiny s využitím kontextualizované reprezentace | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2021 | |
dcterms.dateAccepted | 2021-09-02 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 223946 | |
dc.title.translated | Czech NLP with Contextualized Embeddings | en_US |
dc.contributor.referee | Hajič, Jan | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Umělá inteligence | cs_CZ |
thesis.degree.discipline | Artificial Intelligence | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | S rostoucím objemem dat, zejména nestrukturovaného textu, roste důleži- tost zpracování přirozeného jazyka. Nejmodernějšími technologiemi posledních let jsou neuronové sítě. Tato práce aplikuje nejúspěšnější metody, jmenovitě Bi- directional Encoders Representations from Transformers (BERT), na tři české úlohy ve zpracování přirozeného jazyka - lematizaci, morfologické značkování a analýzu sentimentu. Použili jsme BERTa s jednoduchou klasifikační hlavou na tři české dataset pro analýzu sentimentu: mall, facebook a csfd a dosáhli jsme state-of-the-art výsledků. Také jsme prozkoumaly několik možných postupů tré- nování pro úlohy značkování a lematizace a obdrželi jsme nové state-of-the-art výsledky pro Pražský závislostní korpus v obou úlohách pomocí fine-tunningu. Konkrétně jsme dosáhli přesnosti 98.57% pro značkování, 99.00% pro lemati- zaci a 98.19% pro společné ohodnocení. Nejlepší modely pro všechny úlohy jsou veřejně dostupné. 1 | cs_CZ |
uk.abstract.en | With the increasing amount of digital data in the form of unstructured text, the importance of natural language processing (NLP) increases. The most suc- cessful technologies of recent years are deep neural networks. This work applies the state-of-the-art methods, namely transfer learning of Bidirectional Encoders Representations from Transformers (BERT), on three Czech NLP tasks: part- of-speech tagging, lemmatization and sentiment analysis. We applied BERT model with a simple classification head on three Czech sentiment datasets: mall, facebook, and csfd, and we achieved state-of-the-art results. We also explored several possible architectures for tagging and lemmatization and obtained new state-of-the-art results in both tagging and lemmatization with fine-tunning ap- proach on data from Prague Dependency Treebank. Specifically, we achieved accuracy 98.57% for tagging, 99.00% for lemmatization, and 98.19% for joint accuracy of both tasks. Best models for all tasks are publicly available. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |