Vytěžování textu ze strojově psaných dokumentů
Character recognition of machine-written documents
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/38644Identifiers
Study Information System: 96477
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Kolomazník, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Software Engineering
Date of defense
20. 6. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
Optické rozpoznávání znaků, Extrakce textu, Normalizace osvětleníKeywords (English)
Optical Character Recognition, Text Extraction, Lightning NormalizationV předložené práci řešíme problém extrakce a rozpoznání znaků z tištěných dokumentů digitalizovaných skenerem nebo fotoaparátem. Uvádíme způsob normalizace osvětlení dokumentů rezistentní vůči šumu. Pokračujeme extrakcí jednotlivých znaků z dokumentu a následně jejich rozpoznáním pomocí systému vícevrstvých neurálních sítí s dopředným šířením. Okrajově se zabýváme zpracováním výsledné množiny rozpoznaných symbolů, které je nezbytné pro další práci s vytěženým textem. Posledním krokem je korekce výstupu založená na okolích jednotlivých znaků. Podařilo se nám implementovat automatický systém obsahující všechny zmíněné komponenty.
In the present thesis we solve the problem of symbol extraction and recognition from printed documents digitized by the scanner or camera. We introduce a noise resistant algorithm of document lighting normalization. We continue with the extraction of individual characters from the document and their recognition with a system of feedforward multilayer neural networks. We also focus on processing of the resulting set of recognized characters, which is necessary for further use of the extracted text. The last step is correction of the output based on surrounding letters of each character. We have successfully implemented an automatic system containing all the above components.