dc.contributor.advisor | Pecina, Pavel | |
dc.creator | Van de Moosdijk, Sara Francisca | |
dc.date.accessioned | 2017-05-27T18:20:55Z | |
dc.date.available | 2017-05-27T18:20:55Z | |
dc.date.issued | 2014 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/72138 | |
dc.description.abstract | Lingvistický diskurz se zabývá významem delších kusů textu, od vět po celé dokumenty, mohl by se však uplatnit i v úlohách získávání informací z textu, např. vyhledávání dokumentů či jejich sumarizace. Cílem této práce je uplatnění informací o stavbě diskurzu psaného textu pro potřeby získávání znalostí. Jedná se o prvnípokus, který se snaží skloubit tyto dva velice odlišné obory, a jeho ambicí je tak připravit základ pro tento způsob získávání znalostí. Náš postup spočívá v použití metod neřízeného strojového učení k analýze diskurzních vztahů a jejich následovném modelování pomocí vzorových struktur z formální konceptuální analýzy. Naši metodu jsme aplikovali na korpus lékařských článků z databáze PubMed. Tyto lékařské texty potom obohacujeme o koncepty z metathesauru UMLS, které jsou kombinovány s daty ze sémantické sítě UMLS, která fungují jako ontologie ve vzorových strukturách. Naše výsledky ukazují, že i přes vysokou úroveň šumu je naše metoda slibná a bylo by možné ji aplikovat i na jiné domény. Powered by TCPDF (www.tcpdf.org) | cs_CZ |
dc.description.abstract | Linguistic discourse refers to the meaning of larger text segments, and could be very useful for guiding attempts at text mining such as document selection or summarization. The aim of this project is to apply discourse information to Knowledge Discovery in Databases. As far as we know, this is the first attempt at combining these two very different fields, so the goal is to create a basis for this type of knowledge extraction. We approach the problem by extracting discourse relations using unsupervised methods, and then model the data using pattern structures in Formal Concept Analysis. Our method is applied to a corpus of medical articles compiled from PubMed. This medical data can be further enhanced with concepts from the UMLS MetaThesaurus, which are combined with the UMLS Semantic Network to apply as an ontology in the pattern structures. The results show that despite having a large amount of noise, the method is promising and could be applied to domains other than the medical domain. Powered by TCPDF (www.tcpdf.org) | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | dobývání informací z textu | cs_CZ |
dc.subject | výstavba diskurzu | cs_CZ |
dc.subject | formální konceptuální analýza | cs_CZ |
dc.subject | text mining | en_US |
dc.subject | discourse structure | en_US |
dc.subject | formal concept analysis | en_US |
dc.title | Mining texts at the discourse level | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2014 | |
dcterms.dateAccepted | 2014-09-08 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 147067 | |
dc.title.translated | Dolování textu na úrovni diskursu | cs_CZ |
dc.contributor.referee | Novák, Michal | |
dc.identifier.aleph | 001851350 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Matematická lingvistika | cs_CZ |
thesis.degree.discipline | Computational Linguistics | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
uk.degree-discipline.en | Computational Linguistics | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | Lingvistický diskurz se zabývá významem delších kusů textu, od vět po celé dokumenty, mohl by se však uplatnit i v úlohách získávání informací z textu, např. vyhledávání dokumentů či jejich sumarizace. Cílem této práce je uplatnění informací o stavbě diskurzu psaného textu pro potřeby získávání znalostí. Jedná se o prvnípokus, který se snaží skloubit tyto dva velice odlišné obory, a jeho ambicí je tak připravit základ pro tento způsob získávání znalostí. Náš postup spočívá v použití metod neřízeného strojového učení k analýze diskurzních vztahů a jejich následovném modelování pomocí vzorových struktur z formální konceptuální analýzy. Naši metodu jsme aplikovali na korpus lékařských článků z databáze PubMed. Tyto lékařské texty potom obohacujeme o koncepty z metathesauru UMLS, které jsou kombinovány s daty ze sémantické sítě UMLS, která fungují jako ontologie ve vzorových strukturách. Naše výsledky ukazují, že i přes vysokou úroveň šumu je naše metoda slibná a bylo by možné ji aplikovat i na jiné domény. Powered by TCPDF (www.tcpdf.org) | cs_CZ |
uk.abstract.en | Linguistic discourse refers to the meaning of larger text segments, and could be very useful for guiding attempts at text mining such as document selection or summarization. The aim of this project is to apply discourse information to Knowledge Discovery in Databases. As far as we know, this is the first attempt at combining these two very different fields, so the goal is to create a basis for this type of knowledge extraction. We approach the problem by extracting discourse relations using unsupervised methods, and then model the data using pattern structures in Formal Concept Analysis. Our method is applied to a corpus of medical articles compiled from PubMed. This medical data can be further enhanced with concepts from the UMLS MetaThesaurus, which are combined with the UMLS Semantic Network to apply as an ontology in the pattern structures. The results show that despite having a large amount of noise, the method is promising and could be applied to domains other than the medical domain. Powered by TCPDF (www.tcpdf.org) | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990018513500106986 | |