Analysis and visualization of OCR output

Nová, Kateřina

Analýza a vizualizace výstupu systému optického rozpoznávání znaků

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/176038

Identifikátory

SIS: 225468

Oponent práce

Mírovský, Jiří

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

12. 9. 2022

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Dobře

Klíčová slova (česky)

optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazyka

Klíčová slova (anglicky)

Optical Character Recognition|golden data set|statistical analysis|Natural Language Processing

Optické rozpoznávání znaků (OCR) je proces převodu textu z obrázku do strojově čitelného textu. Spustili jsme tři OCR systémy (Tesseract, Ocrad a GOCR) na vytvořeném vícejazyčném datasetu a provedli statistickou a lingvistickou analýzu výsledků za účelem porovnání testovaných systémů a identifikování typických OCR chyb. 1

Abstrakt (anglicky)

Optical Character Recognition (OCR) is a process of converting text from images to a machine-readable text. We run three OCR systems (Tesseract, Ocrad and GOCR) on an original multilingual OCR dataset and perform statistical and linguistic analysis of the results in order to compare the tested systems and investigate typical OCR errors. 1

Citace dokumentu

Metadata

Zobrazit celý záznam