Analýza starých manuskriptů
Medieval manusripts' analysis
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/127964Identifikátory
SIS: 235695
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Bída, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
2. 7. 2021
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
binarizace|segmentace|detekce řádkůKlíčová slova (anglicky)
binarization|segmentation|line detectionTato práce se věnuje analýze historických manuskriptů s využitím statistických metod. Konkrétně se jedná o binarizaci dokumentu, tj. oddělení popředí od pozadí, dále detekci řádek textu a nakonec rozdělování těchto řádek na jednotlivá slova. Oproti tištěným dokumentům je tento proces ovšem značně komplikován obecně horší kvalitou rukopisů, nepravidelnou strukturou dokumentu, ozdobnými prvky přímo v textu apod. V práci uvádíme možné přístupy k řešení těchto problémů a detailně popisujeme algoritmus, který byl navržen a zvolen k implementaci. Důraz je kladen zejména na to, aby byly co nejlépe nalezeny a odstraněny netextové oblasti (iluminace apod.) v dokumentu. Součástí práce jsou i experimenty a vyhodnocení úspěšnosti zvolené metody. 1
This thesis deals with an analysis of medieval manuscripts using statistical methods. Firstly, the document is binarized, i.e. the foreground regions are classified. Then the detection of text lines is performed. Finally, detected text lines are split into separate words. This process is more complicated for historical manuscripts compared to printed documents due to their age, irregular page layout and non-textual parts (images) within the text. In this text, various approaches to these problems are discussed. Particular attention is paid to the algorithm that was designed and implemented to perform the detection and deletion of non-textual parts of the document. Experimental results are included and evaluated. 1
