Semi-supervised learning in Optical Music Recognition
Automatické rozpoznávání notových zápisů s využitím neanotovaných dat
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/173547Identifiers
Study Information System: 245756
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Straka, Milan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software and Data Engineering
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 6. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
optické rozpoznávání notopisů|semi-supervised učení|hluboké neuronové sítěKeywords (English)
optical music recognition|semi-supervised learning|deep neural networkOptické rozpoznávání notových zápisů je úzký podobor počítačového vidění, který sice disponuje určitým množstvím anotovaných datasetů, nicméně má k dispozici řádově větší množství neanotovaných dat. Tento obor se v poslední době vyvíjí zejména díky aplikaci hlubokého učení, ale na trénování neuronových sítí se zatím používají pouze anotovaná data. Semi-supervised learning je podoblast strojového učení, zbývající se sou- časným učením z anotovaných a neanotovaných dat. Cílem je získat lepší modely, než kdybychom trénovali pouze z anotovaných dat. V této práci jsme upravili existující ar- chitekturu, používanou pro detekci hudebních symbolů, a navrhli jsme způsob, jakým ji trénovat v semi-supervised režimu. Upravená architektura je schopná učit se reprezentace i z neanotovaných dat a ve srovnání se svojí původní variantou má stabilnější trénování. 1
Optical music recognition (OMR) is a niche subfield of computer vision, where some labeled datasets exist, but there is an order of magnitude more unlabeled data available. Recent advances in the field happened largely thanks to the adoption of deep learning. However, such neural networks are trained using labeled data only. Semi-supervised learning is a set of techniques that aim to incorporate unlabeled data during training to produce more capable models. We have modified a state-of-the-art object detection archi- tecture and designed a semi-supervised training scheme to utilize unlabeled data. These modifications have successfully allowed us to train the architecture in an unsupervised setting, and our semi-supervised experiments indicate improvements to training stability and reduced overfitting. 1