OCR for tabular data
OCR pro tabulková data
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/108309Identifikátory
SIS: 204581
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Oponent práce
Šefl, Vít
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování a softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
27. 6. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
OCR, digitalizace, archivace, účetní dataKlíčová slova (anglicky)
OCR, digitalization, archivation, accounting dataRozpoznávanie tabuliek je dôležitým nástrojom pre digitalizáciu tabu- ľkových dokumentov, ktoré sa bežne využívajú v oblastiach administratívy, bankovníctva a vzdelávania. Cieľom práce je za pomoci existujúceho soft- véru na optické rozpoznávanie znakov (OCR) implementovať nový algoritmus na rozpoznávanie tabuliek pre zjednodušenie digitalizácie rôznorodých doku- mentov. V porovnaní s dnešnými open-source softvérmi dosahuje výsledný algoritmus porovnateľné alebo lepšie výsledky. Práca navyše dokumentuje rôzne implementácie OCR a meria vplyv kvality predspracovania obrázku na rozpoznávanie tabuliek.
Table recognition is an important tool for digitalizing documents that con- tain tabular data, which often occur in areas of administration, finances and education. This thesis re-uses existing optical character recognition software to construct a new table recognition algorithm that aims to simplify the digitaliza- tion of diverse document types. The resulting algorithm achieves comparable or better results than currently available open-source software. Thesis additionally reviews common methods of OCR software implementation, and measures the influence of image preprocessing quality on the outcome of the table recognition. 1