Semantic annotations
Sémantické anotace
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/41689Identifikátory
SIS: 44727
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Maynard, Diana
Železný, Filip
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
24. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
extrakce informací, sémantický web, klasifikace dokumentů, strojové učení, ontologieKlíčová slova (anglicky)
information extraction, semantic web, document classification, machine learning, ontologiesV této práci jsou prezentována čtyři relativně samostatná témata. Každé z nich reprezentuje jeden aspekt extrakce informací z textů. První dvě témata jsou zaměřena na naše metody pro extrakci informací založené na hloubkové lingvistické analýze textu. První téma se týká toho, jak byla lingvistická analýza použita při extrakci v kombinaci s ručně navrženými extrakčními pravidly. Druhé téma se zabývá metodou pro automatickou indukci extrakčních pravidel pomocí Induktivního logického programování. Třetí téma práce kombinuje extrakci informací s odvozováním znalostí (reasoningem). Jádro naší extrakční metody bylo experimentálně implementováno pomocí technologií sémantického webu, což umožňuje export extrakčních pravidel do tzv. přenositelných extrakčních ontologií, které jsou nezávislé na původním extrakčním nástroji. Poslední téma této práce se zabývá klasifikací dokumentů a fuzzy logikou. Zkoumáme možnosti využití informací získaných metodami extrakce informací ke klasifikaci dokumentů. K tomuto účelu byla experimentálně použita naše implementace tzv. Fuzzy ILP klasifikátoru.
Four relatively separate topics are presented in the thesis. Each topic represents one particular aspect of the Information Extraction discipline. The first two topics are focused on our information extraction methods based on deep language parsing. The first topic relates to how deep language parsing was used in our extraction method in combination with manually designed extraction rules. The second topic deals with a method for automated induction of extraction rules using Inductive Logic Programming. The third topic of the thesis combines information extraction with rule based reasoning. The core of our extraction method was experimentally reimplemented using semantic web technologies, which allows saving the extraction rules in so called shareable extraction ontologies that are not dependent on the original extraction tool. The last topic of the thesis deals with document classification and fuzzy logic. We are investigating the possibility of using information obtained by information extraction techniques to document classification. Our implementation of so called Fuzzy ILP Classifier was experimentally used for the purpose of document classification.