dc.contributor.advisor | Hana, Jiří | |
dc.creator | Tydlitátová, Ludmila | |
dc.date.accessioned | 2017-05-31T20:17:04Z | |
dc.date.available | 2017-05-31T20:17:04Z | |
dc.date.issued | 2016 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/73979 | |
dc.description.abstract | Cílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1 | cs_CZ |
dc.description.abstract | Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | počítačová lingvistika | cs_CZ |
dc.subject | NLP | cs_CZ |
dc.subject | strojové učení | cs_CZ |
dc.subject | Identifikace rodného jazyka | cs_CZ |
dc.subject | NLI | cs_CZ |
dc.subject | computational linguistics | en_US |
dc.subject | NLP | en_US |
dc.subject | machine learning | en_US |
dc.subject | Native Language Identification | en_US |
dc.subject | NLI | en_US |
dc.title | Native Language Identification of L2 Speakers of Czech | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2016 | |
dcterms.dateAccepted | 2016-09-08 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 172519 | |
dc.title.translated | Identifikace rodného jazyka cizinců mluvících česky | cs_CZ |
dc.contributor.referee | Vidová Hladká, Barbora | |
dc.identifier.aleph | 002102533 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Cílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1 | cs_CZ |
uk.abstract.en | Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1 | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |