Mining texts at the discourse level

Van de Moosdijk, Sara Francisca

Dolování textu na úrovni diskursu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (74.32Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/72138

Identifikátory

SIS: 147067

Oponent práce

Novák, Michal

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

8. 9. 2014

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

dobývání informací z textu, výstavba diskurzu, formální konceptuální analýza

Klíčová slova (anglicky)

text mining, discourse structure, formal concept analysis

Lingvistický diskurz se zabývá významem delších kusů textu, od vět po celé dokumenty, mohl by se však uplatnit i v úlohách získávání informací z textu, např. vyhledávání dokumentů či jejich sumarizace. Cílem této práce je uplatnění informací o stavbě diskurzu psaného textu pro potřeby získávání znalostí. Jedná se o prvnípokus, který se snaží skloubit tyto dva velice odlišné obory, a jeho ambicí je tak připravit základ pro tento způsob získávání znalostí. Náš postup spočívá v použití metod neřízeného strojového učení k analýze diskurzních vztahů a jejich následovném modelování pomocí vzorových struktur z formální konceptuální analýzy. Naši metodu jsme aplikovali na korpus lékařských článků z databáze PubMed. Tyto lékařské texty potom obohacujeme o koncepty z metathesauru UMLS, které jsou kombinovány s daty ze sémantické sítě UMLS, která fungují jako ontologie ve vzorových strukturách. Naše výsledky ukazují, že i přes vysokou úroveň šumu je naše metoda slibná a bylo by možné ji aplikovat i na jiné domény. Powered by TCPDF (www.tcpdf.org)

Abstrakt (anglicky)

Linguistic discourse refers to the meaning of larger text segments, and could be very useful for guiding attempts at text mining such as document selection or summarization. The aim of this project is to apply discourse information to Knowledge Discovery in Databases. As far as we know, this is the first attempt at combining these two very different fields, so the goal is to create a basis for this type of knowledge extraction. We approach the problem by extracting discourse relations using unsupervised methods, and then model the data using pattern structures in Formal Concept Analysis. Our method is applied to a corpus of medical articles compiled from PubMed. This medical data can be further enhanced with concepts from the UMLS MetaThesaurus, which are combined with the UMLS Semantic Network to apply as an ontology in the pattern structures. The results show that despite having a large amount of noise, the method is promising and could be applied to domains other than the medical domain. Powered by TCPDF (www.tcpdf.org)

Citace dokumentu

Metadata

Zobrazit celý záznam