Relation extraction in police records
Extrakce relací v policejních záznamech
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/90996Identifiers
Study Information System: 164935
Collections
- Kvalifikační práce [10594]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
12. 9. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
extrakce relací, strojové učení, zpracování přirozeného jazyka, Policie České Republiky, tree kernelKeywords (English)
relation extraction, machine learning, natural language processing, Police of the Czech Republic, tree kernelTato práce popisuje problém extrakce relací mezi pojmenovanými entitami na úrovni vět, za předpokladu, že pojmenované entity jsou již v textu označeny, na doméně policejních zpráv napsaných protidrogovým oddělením Policie České Republiky. Použili jsme různé metody strojového učení v kombinaci se funkcemi stromových kernelů a metodami založenými na pravidlech větné syntaxe. Žádná z použitých metod nedosáhla uspokojivých výsledků na datech poskytnutých Policií České Republiky. Následující analýza odhalila, že v označkování poskytnutých dat chybí mnoho relací, které jsou při čtení člověkem zřejmé. To se ukázalo jako důvod, proč metody strojového učení s učitelem neuspěly. Dále v této práci představujeme několik pravidel pro určení relací, která jsme identifikovali ručně. Poznatky v této práci mohou být nápomocné pro další výzkum a zpracování těchto policejních zpráv.
This work describes a problem of relation extraction between named entities on the sentence level, assuming that the named entities are already tagged in the text, on the domain of police reports written by the Anti-drug Department of the Police of the Czech Republic. We have used various methods of machine learning in combination with tree kernel functions and methods based on sentence syntax rules. None of the used methods had satisfying results on the data provided by the Police of the Czech Republic. Following analysis showed that tagging of the relations in the data was missing many relations, which were obvious to a human reader. That was found to be the reason why the supervised machine learning was not successful. Later in this work we present several rules for recognizing relations which we have identified manually. Findings in this work may be helpful for future research of processing these police reports.