Semantic relation extraction from unstructured data in the business domain
Extrakce sémantických vztahů z nestrukturovaných dat v komerční sféře
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/78499Identifiers
Study Information System: 163873
Collections
- Kvalifikační práce [11327]
Author
Advisor
Referee
Kuboň, Vladislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
8. 6. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Nestrukturovaná Data, Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, SnowballKeywords (English)
Unstructured data, Information Retrieval, Relation Extraction, Text Analytics, Distant Supervision, SnowballV posledních letech se využití textové analytiky v komerční sféřě postupně stává významým tématem pro vědecké a praktické aplikace. Zaměřili jsme se na určování vztahů mezi entitami z dat dodaných partnerskou společností. Analýza textu z této sféry ale vyžaduje jiný přístup: počítání s nepřesnostma a specifickými atributy. V této práci jsme se rozhodli ukázat využití dvou metod pro určování vztahů: tzv. Snowball systém a Metodu vzdáleného dohledu (z angl. Distant Supervision), které jsme přizpůsobili pro dodaná data. Dané metody byli implementovány pro využití strukturovaných a nestrukturovaných dat z firemní databáze. Klíčová slova: Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, Snowball
Text analytics in the business domain is a growing field in research and practical applications. We chose to concentrate on Relation Extraction from unstructured data which was provided by a corporate partner. Analyzing text from this domain requires a different approach, counting with irregularities and domain specific attributes. In this thesis, we present two methods for relation extraction. The Snowball system and the Distant Supervision method were both adapted for the unique data. The methods were implemented to use both structured and unstructured data from the database of the company. Keywords: Information Retrieval, Relation Extraction, Text Analytics, Distant Supervision, Snowball