Automatické zpracování českých soudních rozhodnutí
Processing of Czech court decisions
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/62630Identifikátory
SIS: 163148
Kolekce
- Kvalifikační práce [10691]
Autor
Vedoucí práce
Oponent práce
Nečaský, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
15. 6. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
počítačové zpracování přirozeného jazyka, extrakce informací, legislativní doména, strojové učení, pravidlové systémyKlíčová slova (anglicky)
natural language processing, information extraction, legislative domain, machine learning, rule-based systemsNázev práce: Automatické zpracování českých soudních rozhodnutí Autor: Bohdan Maslowski Katedra / Ústav: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Barbora Vidová Hladká, Ph.D. Abstrakt: Cílem této práce je porovnání různých metod zpracování textů rozhodnutí českých soudů. Konkrétně byly řešeny úlohy extrakce informací o účastnících soudních řízení (jmen, procesních rolí, adres, apod.) a klasifikace soudních rozhodnutí podle dvou kritérií, právní kategorie a výsledku řízení. Jsou vyhodnoceny a porovnány metody založené na strojovém učení s metodami využívajícími pravidla. Pro účely trénování a vyhodnocení klasifikátorů byl připraven anotovaný korpus soudních rozhodnutí v rozsahu 400 dokumentů. Součástí práce je webová aplikace demonstrující výsledky různých přístupů a nástroj na spouštění vyhodnocení testovacích scénářů. Klíčová slova: počítačové zpracování přirozeného jazyka, extrakce informací, legislativní doména, strojové učení, pravidlové systémy
Title: Processing of Czech court decisions Author: Bohdan Maslowski Department: Institute of Formal and Applied Linguistics Supervisor: Mgr. Barbora Vidová Hladká, Ph.D. Abstract: The objective of this thesis is a comparison of various language processing methods of Czech case-law documents. In particular, the tasks of extraction of information about parties (names, roles, addresses, etc.) and document classification by two criteria, subject and result have been solved. Machine learning methods are evaluated and compared to rule-based approach. For the purpose of training and evaluation of classifiers, a corpus of 400 Czech case-law documents has been created and manually annotated. The thesis includes a web application used for demonstration of the results of different approaches and a tool for running and evaluation of testing scenarios. Keywords: natural language processing, information extraction, legislative domain, machine learning, rule-based systems