Automatické přiřazení diagnoz lékařským zprávám
Automatic assignment of diagnosis to medical reports
Automatické přiřazení diagnoz lékařským zprávám
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/71541Identifiers
Study Information System: 142525
Collections
- Kvalifikační práce [11325]
Author
Advisor
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
16. 6. 2014
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Excellent
Keywords (Czech)
strojové učenie, kategorizácia textu, ICD-10Keywords (English)
machine learning, text classification, ICD-10Cieľom práce je preskúmať úspešnosť automatického priraďovania kódov diagnóz (ICD10) lekárskym správam písaných v českom jazyku. Použili sme metódy strojového učenia a algoritmy na kategorizáciu textu ako sú Naive Bayes a Rozhodovacie stromy. Na samotnú klasifikáciu sme využili program WEKA. Na výber atribútov a predspracovanie dát sme vytvorili vlastný program. Hlavné schopnosti programu sú vybratie atribútov na základe IG alebo PMI, lematizácia textu a generovanie stopwords podľa IDF. Najviac sme skúmali diagnózu I10 ale výsledky boli spracované aj pre H660, J00, K30 a Z001. Ako zaujímavosť sme uviedli porovnanie automatického verzus manuálneho priradenia I10 priamo lekármi na vzorke 100 správ. Celkovo sme mali k dispozícií milión správ.
The goal of the thesis is to examine the percentage of automatically assigned diagnosis codes (ICD10) to Czech text medical reports. We used machine learning and text classification algorithms such as Naive Bayes and decision trees. Program WEKA was used for classification. Features selection and data preprocessing were made by our program, which was created exclusive for this purpose. The key features of the program are features selection based on IG or PMI, text lemmatization and stopwords generation by IDF. We took closer look at I10 diagnosis but the results were processed for H660, J00, K30 and Z001 as well. For the curiosity we include a comparison of automatic assignment I10 versus manuals assignment by doctors on a sample of hundred. Out data set was about one million medical reports.