Analýza starých manuskriptů
Medieval manusripts' analysis
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/127964Identifiers
Study Information System: 235695
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Bída, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Software and Computer Science Education
Date of defense
2. 7. 2021
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
binarizace|segmentace|detekce řádkůKeywords (English)
binarization|segmentation|line detectionTato práce se věnuje analýze historických manuskriptů s využitím statistických metod. Konkrétně se jedná o binarizaci dokumentu, tj. oddělení popředí od pozadí, dále detekci řádek textu a nakonec rozdělování těchto řádek na jednotlivá slova. Oproti tištěným dokumentům je tento proces ovšem značně komplikován obecně horší kvalitou rukopisů, nepravidelnou strukturou dokumentu, ozdobnými prvky přímo v textu apod. V práci uvádíme možné přístupy k řešení těchto problémů a detailně popisujeme algoritmus, který byl navržen a zvolen k implementaci. Důraz je kladen zejména na to, aby byly co nejlépe nalezeny a odstraněny netextové oblasti (iluminace apod.) v dokumentu. Součástí práce jsou i experimenty a vyhodnocení úspěšnosti zvolené metody. 1
This thesis deals with an analysis of medieval manuscripts using statistical methods. Firstly, the document is binarized, i.e. the foreground regions are classified. Then the detection of text lines is performed. Finally, detected text lines are split into separate words. This process is more complicated for historical manuscripts compared to printed documents due to their age, irregular page layout and non-textual parts (images) within the text. In this text, various approaches to these problems are discussed. Particular attention is paid to the algorithm that was designed and implemented to perform the detection and deletion of non-textual parts of the document. Experimental results are included and evaluated. 1