Automatické zpracování českých soudních rozhodnutí
Processing of Czech court decisions
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/62630Identifiers
Study Information System: 163148
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Nečaský, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Institute of Formal and Applied Linguistics
Date of defense
15. 6. 2015
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
počítačové zpracování přirozeného jazyka, extrakce informací, legislativní doména, strojové učení, pravidlové systémyKeywords (English)
natural language processing, information extraction, legislative domain, machine learning, rule-based systemsNázev práce: Automatické zpracování českých soudních rozhodnutí Autor: Bohdan Maslowski Katedra / Ústav: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Barbora Vidová Hladká, Ph.D. Abstrakt: Cílem této práce je porovnání různých metod zpracování textů rozhodnutí českých soudů. Konkrétně byly řešeny úlohy extrakce informací o účastnících soudních řízení (jmen, procesních rolí, adres, apod.) a klasifikace soudních rozhodnutí podle dvou kritérií, právní kategorie a výsledku řízení. Jsou vyhodnoceny a porovnány metody založené na strojovém učení s metodami využívajícími pravidla. Pro účely trénování a vyhodnocení klasifikátorů byl připraven anotovaný korpus soudních rozhodnutí v rozsahu 400 dokumentů. Součástí práce je webová aplikace demonstrující výsledky různých přístupů a nástroj na spouštění vyhodnocení testovacích scénářů. Klíčová slova: počítačové zpracování přirozeného jazyka, extrakce informací, legislativní doména, strojové učení, pravidlové systémy
Title: Processing of Czech court decisions Author: Bohdan Maslowski Department: Institute of Formal and Applied Linguistics Supervisor: Mgr. Barbora Vidová Hladká, Ph.D. Abstract: The objective of this thesis is a comparison of various language processing methods of Czech case-law documents. In particular, the tasks of extraction of information about parties (names, roles, addresses, etc.) and document classification by two criteria, subject and result have been solved. Machine learning methods are evaluated and compared to rule-based approach. For the purpose of training and evaluation of classifiers, a corpus of 400 Czech case-law documents has been created and manually annotated. The thesis includes a web application used for demonstration of the results of different approaches and a tool for running and evaluation of testing scenarios. Keywords: natural language processing, information extraction, legislative domain, machine learning, rule-based systems