Optical Music Recognition using Deep Neural Networks
Automatický přepis notových zápisů pomocí hlubokých neuronových sítí
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/119393Identifiers
Study Information System: 219799
Collections
- Kvalifikační práce [10134]
Author
Advisor
Referee
Hajič, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 7. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
optické rozpoznávání notopisů, hluboké neuronové sítěKeywords (English)
Optical Music Recognition, Deep Neural NetworksAutomatický přepis notových zápisů (Optical Music Recognition) je zajímavá úloha, v mnoha ohledech podobná automatickému přepisu textu (Optical Character Recognition). Přináší s sebou ovšem mnoho problémů, které způsobují potíže klasickým metodám počí- tačového vidění. Hluboké neuronové sítě umožnily řešit automatický přepis textu tzv. end-to-end přístupem, kdy se celá úloha řeší najednou. Zkusili jsme použít tuto metodu na problém rozpoznávání notových zápisů, ale zaměřili jsme se pouze na ručně psané zápisy. Pro vyřešení nedostatku trénovacích dat jsme vyvinuli sázecí systém s názvem Mashcima. Tento systém úspěšně napodobuje vzhled datasetu CVC-MUSCIMA. Provedli jsme vyhodnocení našeho přístupu na části datasetu CVC-MUSCIMA s velmi nadějnými výsledky, což naznačuje, že použité řešení je funkční a další práce v tomto směru by mohla vést ještě k dalšímu zlepšení. 1
Optical music recognition is a challenging field similar in many ways to optical text recognition. It brings, however, many challenges that traditional pipeline-based recog- nition systems struggle with. The end-to-end approach has proven to be superior in the domain of handwritten text recognition. We tried to apply this approach to the field of OMR. Specifically, we focused on handwritten music recognition. To resolve the lack of training data, we developed an engraving system for handwritten music called Mashcima. This engraving system is successful at mimicking the style of the CVC- MUSCIMA dataset. We evaluated our model on a portion of the CVC-MUSCIMA dataset and the approach seems to be promising. 1