Analysis and visualization of OCR output
Analýza a vizualizace výstupu systému optického rozpoznávání znaků
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/176038Identifikátory
SIS: 225468
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Oponent práce
Mírovský, Jiří
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
12. 9. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
optické rozpoznávání znaků (OCR)|zlatá data|statistická analýza|počítačové zpracování přirozeného jazykaKlíčová slova (anglicky)
Optical Character Recognition|golden data set|statistical analysis|Natural Language ProcessingOptické rozpoznávání znaků (OCR) je proces převodu textu z obrázku do strojově čitelného textu. Spustili jsme tři OCR systémy (Tesseract, Ocrad a GOCR) na vytvořeném vícejazyčném datasetu a provedli statistickou a lingvistickou analýzu výsledků za účelem porovnání testovaných systémů a identifikování typických OCR chyb. 1
Optical Character Recognition (OCR) is a process of converting text from images to a machine-readable text. We run three OCR systems (Tesseract, Ocrad and GOCR) on an original multilingual OCR dataset and perform statistical and linguistic analysis of the results in order to compare the tested systems and investigate typical OCR errors. 1