Zobrazit minimální záznam

Quantitative Characteristics of Terms
dc.contributor.advisorČermák, František
dc.creatorKováříková, Dominika
dc.date.accessioned2018-10-29T21:26:01Z
dc.date.available2018-10-29T21:26:01Z
dc.date.issued2014
dc.identifier.urihttp://hdl.handle.net/20.500.11956/66501
dc.description.abstractMetoda automatického vyhledávání termínů TERMIT je zaměřena nejen na samotnou úspěšnost, tedy co nejvyšší počet správně vyhledaných termínů, ale v první řadě na vlast- nosti, které při identifikaci jednoslovných a víceslovných termínů hrají nejdůležitější roli. Je založena na data miningu, tedy na vytěžování informací z velkých objemů (korpusových) dat. Metoda TERMIT se při rozpoznávání termínů v reálných textech i při hledání pod- statných kvantitativních rysů termínů osvědčila. Na jejím základě je možné jednoslovný termín charakterizovat jako slovo, které se v odborných textech daného oboru vyskytuje výrazně častěji než v textech neakademických, vyskytuje se jen v malém počtu akade- mických disciplín, v celém korpusu (SYN2010) je nerovnoměrně rozložené a málo frekven- tované a rozestupy mezi jeho jednotlivými výskyty jsou nepravidelné. Víceslovný termín je podle výsledků metody TERMIT ustálená kolokace složená z méně frekventovaných slov, která obvykle obsahuje alespoň jedno slovo s vysokou terminologickou platností, tedy jed- noslovný termín. S pomocí těchto charakteristik termínů lze více než 95 % textu zařadit správně mezi jednoslovné i víceslovné termíny a netermíny. Na...cs_CZ
dc.description.abstractThe new method of automatic term recognition TERMIT is focused not only on the high number of correctly labeled terms, but also on the most important attributes of a term (in terms of their role in automatic term identification process). The method is based on data mining, i.e. finding meaningful information in very large corpus data. It was able to both successfuly identify terms in academic texts and find constitutive features of a term as a terminological unit. The single-word term (SWT) can be characterized as a word with a low frequency in corpus (SYN2010) that occurs considerably more often in specialized texts of a given field than in non-academic texts, occurs in a small number of academic disciplines, its distribution in the corpus (SYN2010) is uneven as is the distance between its two instances. The multi-word term (MWT) is a stable collocation consisting of words with low frequency and contains at least one (and often more) single-word term. Based on the characteristics of SWT and MWT, it is possible to classify individual tokens in texts as terms or non-terms with a success rate of more than 95 %. Automatically identified terms can be used to identify percentage of SWT or MWT in different academic disciplines, as well as find terms shared by two or more domains in order to assess their...en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Filozofická fakultacs_CZ
dc.subjectsingle-word termen_US
dc.subjectmulti-word termen_US
dc.subjectcharacteristics of termsen_US
dc.subjectautomatic term recognitionen_US
dc.subjectdata miningen_US
dc.subjectjednoslovný termíncs_CZ
dc.subjectvíceslovný termíncs_CZ
dc.subjectcharakteristiky termínůcs_CZ
dc.subjectautomatické vyhledávání termínůcs_CZ
dc.subjectdata miningcs_CZ
dc.titleKvantitativní charakteristiky termínůcs_CZ
dc.typedizertační prácecs_CZ
dcterms.created2014
dcterms.dateAccepted2014-12-17
dc.description.departmentInstitute of Czech Language and Theory of Communicationen_US
dc.description.departmentÚstav českého jazyka a teorie komunikacecs_CZ
dc.description.facultyFilozofická fakultacs_CZ
dc.description.facultyFaculty of Artsen_US
dc.identifier.repId102157
dc.title.translatedQuantitative Characteristics of Termsen_US
dc.contributor.refereeBozděchová, Ivana
dc.contributor.refereeMachová, Svatava
dc.identifier.aleph001879387
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineCzech Languageen_US
thesis.degree.disciplineČeský jazykcs_CZ
thesis.degree.programPhilologyen_US
thesis.degree.programFilologiecs_CZ
uk.thesis.typedizertační prácecs_CZ
uk.taxonomy.organization-csFilozofická fakulta::Ústav českého jazyka a teorie komunikacecs_CZ
uk.taxonomy.organization-enFaculty of Arts::Institute of Czech Language and Theory of Communicationen_US
uk.faculty-name.csFilozofická fakultacs_CZ
uk.faculty-name.enFaculty of Artsen_US
uk.faculty-abbr.csFFcs_CZ
uk.degree-discipline.csČeský jazykcs_CZ
uk.degree-discipline.enCzech Languageen_US
uk.degree-program.csFilologiecs_CZ
uk.degree-program.enPhilologyen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csMetoda automatického vyhledávání termínů TERMIT je zaměřena nejen na samotnou úspěšnost, tedy co nejvyšší počet správně vyhledaných termínů, ale v první řadě na vlast- nosti, které při identifikaci jednoslovných a víceslovných termínů hrají nejdůležitější roli. Je založena na data miningu, tedy na vytěžování informací z velkých objemů (korpusových) dat. Metoda TERMIT se při rozpoznávání termínů v reálných textech i při hledání pod- statných kvantitativních rysů termínů osvědčila. Na jejím základě je možné jednoslovný termín charakterizovat jako slovo, které se v odborných textech daného oboru vyskytuje výrazně častěji než v textech neakademických, vyskytuje se jen v malém počtu akade- mických disciplín, v celém korpusu (SYN2010) je nerovnoměrně rozložené a málo frekven- tované a rozestupy mezi jeho jednotlivými výskyty jsou nepravidelné. Víceslovný termín je podle výsledků metody TERMIT ustálená kolokace složená z méně frekventovaných slov, která obvykle obsahuje alespoň jedno slovo s vysokou terminologickou platností, tedy jed- noslovný termín. S pomocí těchto charakteristik termínů lze více než 95 % textu zařadit správně mezi jednoslovné i víceslovné termíny a netermíny. Na...cs_CZ
uk.abstract.enThe new method of automatic term recognition TERMIT is focused not only on the high number of correctly labeled terms, but also on the most important attributes of a term (in terms of their role in automatic term identification process). The method is based on data mining, i.e. finding meaningful information in very large corpus data. It was able to both successfuly identify terms in academic texts and find constitutive features of a term as a terminological unit. The single-word term (SWT) can be characterized as a word with a low frequency in corpus (SYN2010) that occurs considerably more often in specialized texts of a given field than in non-academic texts, occurs in a small number of academic disciplines, its distribution in the corpus (SYN2010) is uneven as is the distance between its two instances. The multi-word term (MWT) is a stable collocation consisting of words with low frequency and contains at least one (and often more) single-word term. Based on the characteristics of SWT and MWT, it is possible to classify individual tokens in texts as terms or non-terms with a success rate of more than 95 %. Automatically identified terms can be used to identify percentage of SWT or MWT in different academic disciplines, as well as find terms shared by two or more domains in order to assess their...en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Filozofická fakulta, Ústav českého jazyka a teorie komunikacecs_CZ
thesis.grade.codeP
dc.identifier.lisID990018793870106986


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV