Normalizace pojmenovaných entit v českých textech
Named Entity Normalization in Czech Texts
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/72570Identifiers
Study Information System: 145880
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Popel, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
16. 6. 2014
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
pojmenované entity, normalizace, pravidlový systémKeywords (English)
named entities, normalization, rule-based systemPojmenované entity jsou slovní spojení, která v textu označují objekty reálného světa. Normalizací entit nazveme jejich převod do základního tvaru. Práce se zabývá vytvořením pravidlové procedury určené k normalizaci pojmenovaných entit v českých textech. Proces návrhu jednotlivých pravidel této procedury je důkladně zmapován. Důraz je kladen na to, aby každé pravidlo bylo motivováno příklady reálných entit. Za účelem dosažení co největší úspěšnosti jsou také analyzovány některé aspekty syntaxe českého jazyka. Na základě teoretického popisu procedury je dále implementován normalizační program a jeho úspěšnost je vyhodnocena srovnáním s ručně normalizovanými entitami. Ve spojení s již existujícími nástroji pro automatické rozpoznávání pojmenovaných entit v textu je možné tento normalizátor využít v jiných procesech strojového zpracování textu, například překladu do jiného jazyka, vyhledávání a kategorizaci apod. Powered by TCPDF (www.tcpdf.org)
Named entities are collocations used to refer to real world objects in text. Named entity normalization is a process of generating the basic form for a given named entity. The thesis is focused on creating a rule- based procedure for named entity normalization in Czech texts. The process of designing individual rules is closely examined. Stress is laid on the fact that each rule is motivated by entities from real-world texts. Additionally, some aspects of Czech language syntax are analyzed in order to achieve the highest possible accuracy. Based on the theoretical description of the procedure, a normalization application is implemented, and its accuracy is evaluated by comparison with manually normalized entities. Together with already existing tools for automatic named entity recognition, it is possible to use this normalizer in other text processing tasks, such as machine translation, searching and categorization, etc. Powered by TCPDF (www.tcpdf.org)