| dc.contributor.advisor | Lopatková, Markéta | |
| dc.creator | Bejček, Eduard | |
| dc.date.accessioned | 2018-11-30T11:30:20Z | |
| dc.date.available | 2018-11-30T11:30:20Z | |
| dc.date.issued | 2015 | |
| dc.identifier.uri | http://hdl.handle.net/20.500.11956/81353 | |
| dc.description.abstract | Along with the increasing development of language resources - i.e., new lexicons, lexical databases, corpora, treebanks - the need for their efficient interlinking is growing. With such a linking, one can easily benefit from all their properties and information. Considering the convergence of resources, universal lexicographic formats are frequently discussed. In the present thesis, we investigate and analyse methods of interlinking language resources automatically. We introduce a system for interlinking lexicons (such as VALLEX, PDT-Vallex, FrameNet or SemLex) that offer information on syntactic properties of their entries. The system is automated and can be used repeatedly with newer versions of lexicons under development. We also design a method for identification of multiword expressions in a parsed text based on syntactic information from the SemLex lexicon. An output that verifies feasibility of the used methods is, among others, the mapping between the VALLEX and the PDT-Vallex lexicons, resulting in tens of thousands of annotated treebank sentences from the PDT and the PCEDT treebanks added into VALLEX. Powered by TCPDF (www.tcpdf.org) | en_US |
| dc.description.abstract | Spolu se vznikem stále dalších jazykových zdrojů - slovníků, lexi kálních databází, korpusů, treebanků - roste i potřeba jejich účinného propojování, které by umožnilo snadné využití veškerých shromážděných vlastností a informací. V tomto ohledu je také aktuální téma univerzálních lexikografických formátů. Tato práce zkoumá metody automatického propojování jazykových dat. Představíme zde systém na propojování slovníků, jakými jsou například VALLEX, PDT-Vallex, FrameNet, nebo SemLex,k teré poskytují syntaktickou informaci o svých heslech. Systém je automatický, umožňuje tudíž opakovanou aplikaci na novější verze vyvíjejících se jazykových zdrojů. Na základě syntaktické informace obsažené ve slovníku víceslovných výrazů SemLex navrhujeme metodu vyhledávající tyto výrazy v automaticky anotovaném textu. Praktickým výstupem potvrzujícím úspěšnost použitých metod je mj. propojení slovníků VALLEX a PDT-Vallex vedoucí k doplnění desítek tisíc anotovaných vět z treebanků PDT a PCEDT do VALLEXu. Powered by TCPDF (www.tcpdf.org) | cs_CZ |
| dc.language | Čeština | cs_CZ |
| dc.language.iso | cs_CZ | |
| dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
| dc.subject | linking | en_US |
| dc.subject | lexicon | en_US |
| dc.subject | valency | en_US |
| dc.subject | multiword expressions | en_US |
| dc.subject | prolinkování | cs_CZ |
| dc.subject | slovník | cs_CZ |
| dc.subject | valence | cs_CZ |
| dc.subject | víceslovné výrazy | cs_CZ |
| dc.title | Automatické propojování lexikografických zdrojů a korpusových dat. | cs_CZ |
| dc.type | dizertační práce | cs_CZ |
| dcterms.created | 2015 | |
| dcterms.dateAccepted | 2015-09-22 | |
| dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
| dc.description.department | Institute of Formal and Applied Linguistics | en_US |
| dc.description.faculty | Faculty of Mathematics and Physics | en_US |
| dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
| dc.identifier.repId | 44155 | |
| dc.title.translated | Automatic linking of lexicographic sources and corpus data | en_US |
| dc.contributor.referee | Horák, Aleš | |
| dc.contributor.referee | Žabokrtský, Zdeněk | |
| dc.identifier.aleph | 002029622 | |
| thesis.degree.name | Ph.D. | |
| thesis.degree.level | doktorské | cs_CZ |
| thesis.degree.discipline | Matematická lingvistika | cs_CZ |
| thesis.degree.discipline | Mathematical Linguistics | en_US |
| thesis.degree.program | Informatics | en_US |
| thesis.degree.program | Informatika | cs_CZ |
| uk.thesis.type | dizertační práce | cs_CZ |
| uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
| uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
| uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
| uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
| uk.faculty-abbr.cs | MFF | cs_CZ |
| uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
| uk.degree-discipline.en | Mathematical Linguistics | en_US |
| uk.degree-program.cs | Informatika | cs_CZ |
| uk.degree-program.en | Informatics | en_US |
| thesis.grade.cs | Prospěl/a | cs_CZ |
| thesis.grade.en | Pass | en_US |
| uk.abstract.cs | Spolu se vznikem stále dalších jazykových zdrojů - slovníků, lexi kálních databází, korpusů, treebanků - roste i potřeba jejich účinného propojování, které by umožnilo snadné využití veškerých shromážděných vlastností a informací. V tomto ohledu je také aktuální téma univerzálních lexikografických formátů. Tato práce zkoumá metody automatického propojování jazykových dat. Představíme zde systém na propojování slovníků, jakými jsou například VALLEX, PDT-Vallex, FrameNet, nebo SemLex,k teré poskytují syntaktickou informaci o svých heslech. Systém je automatický, umožňuje tudíž opakovanou aplikaci na novější verze vyvíjejících se jazykových zdrojů. Na základě syntaktické informace obsažené ve slovníku víceslovných výrazů SemLex navrhujeme metodu vyhledávající tyto výrazy v automaticky anotovaném textu. Praktickým výstupem potvrzujícím úspěšnost použitých metod je mj. propojení slovníků VALLEX a PDT-Vallex vedoucí k doplnění desítek tisíc anotovaných vět z treebanků PDT a PCEDT do VALLEXu. Powered by TCPDF (www.tcpdf.org) | cs_CZ |
| uk.abstract.en | Along with the increasing development of language resources - i.e., new lexicons, lexical databases, corpora, treebanks - the need for their efficient interlinking is growing. With such a linking, one can easily benefit from all their properties and information. Considering the convergence of resources, universal lexicographic formats are frequently discussed. In the present thesis, we investigate and analyse methods of interlinking language resources automatically. We introduce a system for interlinking lexicons (such as VALLEX, PDT-Vallex, FrameNet or SemLex) that offer information on syntactic properties of their entries. The system is automated and can be used repeatedly with newer versions of lexicons under development. We also design a method for identification of multiword expressions in a parsed text based on syntactic information from the SemLex lexicon. An output that verifies feasibility of the used methods is, among others, the mapping between the VALLEX and the PDT-Vallex lexicons, resulting in tens of thousands of annotated treebank sentences from the PDT and the PCEDT treebanks added into VALLEX. Powered by TCPDF (www.tcpdf.org) | en_US |
| uk.file-availability | V | |
| uk.publication.place | Praha | cs_CZ |
| uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
| thesis.grade.code | P | |
| dc.identifier.lisID | 990020296220106986 | |