Rychlé rozpoznávání notopisů pomocí platformy YOLO
Fast Optical Music Recognition Using the YOLO Platform
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200867Identifikátory
SIS: 281231
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Šikudová, Elena
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
optické rozpoznávání notopisů|detekce objektů|hluboké učeníKlíčová slova (anglicky)
optical music recognition|object detection|deep learningOptické rozpoznávání notového zápisu (OMR) je specializovaná oblast počítačového vidění zaměřená na převod naskenovaných dokumentů do strojově čitelných digitálních formátů. Na rozdíl od tradičního rozpoznávání textu (OCR) čelí OMR jedinečným výzvám, které vyplývají ze složitosti a silně symbolické povahy hudební notace, včetně složitých prostorových vztahů a struktur. Tato práce posouvá teoretický výzkum optického rozpoznávání notopisů (OMR) do praxe. Jejím výsledkem jsou škálovatelné systémy navržené pro zpracování velkých hudebních archivů. Navrhovaný přístup využívá state-of-the-art modely pro detekci objektů z rodiny YOLO11 k vytvoření modulární a efektivní OMR pipeline, která je schopna rychle a přesně zpracovávat tisíce stran do zjednodušeného formátu MusicXML. Rozdělení výpočtu na jednotlivé fáze umožňuje lazení jednotlivých komponent nezávisle na ostatních. Evaluace proběhla na datasetech OmniOMR a OLiMPiC. Z těchto testů vyplývá, že se nám podařilo dosáhnout výrazného zlepšení jak v přesnosti detekce, tak v rychlosti zpracování. Všechny knihovny, které jsou součástí této pipeline, jsou zveřejněny jako open-source a umožňují tak budoucí experimentování a vývoj.
Optical Music Recognition (OMR) is a specialized field within computer vision focused on converting scanned images of musical scores into machine-readable digital formats. Unlike traditional Optical Character Recognition (OCR) for text, OMR faces unique challenges due to the complex and highly symbolic nature of musical notation, with intricate spatial relationships and hierarchical structures. This thesis shifts the focus of OMR research from theoretical models to practical, scalable systems designed to handle large music archives. The proposed approach leverages the advanced capabilities of object detection models, particularly the YOLO11 series, to create a modular, efficient OMR pipeline capable of processing thousands of pages quickly and accurately. By separating the detection and interpretation stages, this modular framework enables fine-tuning of individual components to optimize for both speed and robustness. The pipeline produces simplified MusicXML outputs, and experiments are conducted on the OmniOMR and OLiMPiC datasets. Results demonstrate significant improvements in both detection accuracy and processing speed. The work also provides open-source libraries to enable future experimentation and development.
