Konfigurovatelné vyhledávání entit
Configurable Entity Extraction
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/11818Identifiers
Study Information System: 43036
CU Caralogue: 990010295330106986
Collections
- Kvalifikační práce [11338]
Author
Advisor
Referee
Kopecký, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
31. 1. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Predložená bakalárská práce se zabývá úlohou extrakce informací. Predmetem práce je implementace systému pro extrakci informací, který bude zameren na ceské texty. Vytvorený systém nejprve na základe tréninkových príkladu automaticky zkonstruuje množinu extrakcních vzoru. Následne je systém schopen s využitím získaných extrakcních vzoru nalézt relevantní entity v predložených kolekcích textu. Návrh systému umožnuje využít vytvorenou množinu extrakcních vzoru jak pri doménovém vyhledávání, tak i pri vyhledávání bez doménového rozlišení. Práce rovnež obsahuje popis obdobných systému pracujících s anglickými texty.
In the present work we deal with the task of the Information Extraction. The task of this work is to implement a system for Information Extraction working with Czech texts. At first, created system constructs automatically a set of extraction patterns. The construction of this set is based on training examples. Then the system is able to find relevant entities in the present collections of texts. Design of our system enables to use the created set of extraction patterns both for domain searching and for searching without domain specification. This work contains description of similar systems working with English texts.