Semantic relation extraction from unstructured data in the business domain
Extrakce sémantických vztahů z nestrukturovaných dat v komerční sféře
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/78499Identifikátory
SIS: 163873
Kolekce
- Kvalifikační práce [11327]
Autor
Vedoucí práce
Oponent práce
Kuboň, Vladislav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
8. 6. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Nestrukturovaná Data, Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, SnowballKlíčová slova (anglicky)
Unstructured data, Information Retrieval, Relation Extraction, Text Analytics, Distant Supervision, SnowballV posledních letech se využití textové analytiky v komerční sféřě postupně stává významým tématem pro vědecké a praktické aplikace. Zaměřili jsme se na určování vztahů mezi entitami z dat dodaných partnerskou společností. Analýza textu z této sféry ale vyžaduje jiný přístup: počítání s nepřesnostma a specifickými atributy. V této práci jsme se rozhodli ukázat využití dvou metod pro určování vztahů: tzv. Snowball systém a Metodu vzdáleného dohledu (z angl. Distant Supervision), které jsme přizpůsobili pro dodaná data. Dané metody byli implementovány pro využití strukturovaných a nestrukturovaných dat z firemní databáze. Klíčová slova: Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, Snowball
Text analytics in the business domain is a growing field in research and practical applications. We chose to concentrate on Relation Extraction from unstructured data which was provided by a corporate partner. Analyzing text from this domain requires a different approach, counting with irregularities and domain specific attributes. In this thesis, we present two methods for relation extraction. The Snowball system and the Distant Supervision method were both adapted for the unique data. The methods were implemented to use both structured and unstructured data from the database of the company. Keywords: Information Retrieval, Relation Extraction, Text Analytics, Distant Supervision, Snowball