Algoritmy detekce obchodních dokumentů podle šablon
Algorithms for business document detection using templates
Algoritmy detekce obchodních dokumentů podle šablon
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/82957Identifiers
Study Information System: 179804
Collections
- Kvalifikační práce [10928]
Author
Advisor
Referee
Kopecký, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
5. 9. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Very good
Keywords (Czech)
pološtrukturované dokumenty, annotácia,OCR, vyhľadávanie dokumentovKeywords (English)
semistrucutred documents, annotation, OCR, document searchDiplomová práca sa zaoberá analýzou a návrhom systému pre automatické rozpoznávanie dokumentov. Systém spracuje dokument a prevedie ho do textovej podoby, pričom musí byť zachovaná informácia o pôvodnej polohe slova v dokumente. Tieto dáta budú následne preskúmané a určitým dátam bude pridelený ich význam. Spôsob, akým bude dátam pridelený význam je založený na pravidlách, ktoré môže meniť užívateľ podľa svojej potreby. Následne podľa dát, ich prideleného významu a ich polohy, systém nájde podobný dokument a podľa neho identifikuje aktuálne skúmaný dokument. Powered by TCPDF (www.tcpdf.org)
Thesis deals with analysis and system design for automatic document recognition. The system explores the document and converts it into text data with information about the position of the word in original document. These data will then be reviewed and some of them will be assigned their importance. The way the data will be assigned is based on rules which may vary according to user needs. According to the data, their assignment and the importance of their position, the system finds a similar document and identifies the current document. Powered by TCPDF (www.tcpdf.org)