Feature Evaluation for Scalable Cover Song Identification Using Machine Learning
Ohodnocení příznaků pro rozpoznávání cover verzí písní pomocí technik strojového učení
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/107046Identifiers
Study Information System: 186377
Collections
- Kvalifikační práce [10453]
Author
Advisor
Referee
Hajič, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Software Engineering
Date of defense
10. 6. 2019
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
music information retrieval, rozpoznávání cover verzí písní, strojové učení, ohodnocení příznakůKeywords (English)
music information retrieval, cover song identification, machine learning, feature evaluationRozpoznávání cover verzí písní je oblast problematiky získávání informací z hudby, která se zabývá úkolem rozpoznat, zda dvě odlišné audio nahrávky obsahují různé verze téže písně. Jelikož cover verze se mohou lišit v tempu, tónině, instrumentaci a dalších vlastnostech, bylo během uplynulých let vytvořeno mnoho důmyslných příznaků vhodných pro tento účel. Pro- vedli jsme důkladnou analýzu 32 příznaků použitých v pracech zabývajících se touto problematikou, přičemž rozlišujeme příznaky přesné a škálovatelné. Přesné příznaky jsou založeny na sekvencích harmonických deskriptorů (ty- picky jsou to tzv. " chroma" vektory) a vedou k lepším výsledkům, avšak za cenu vyšší výpočetní náročnosti. Škálovatelné příznaky mají malou kon- stantní velikost a zachycují pouze obecné rysy dané audio nahrávky, díky čemuž je jejich výpočet rychlý a hodí se tak pro použití s velkými data- sety. Vybrali jsme 7 škálovatelných a 3 přesné příznaky, které jsme použili pro konstrukci našeho dvouúrovňového systému pro rozpoznávání cover verzí, přičemž škálovatelné příznaky jsou použity na první úrovni k prořezání data- setu a přesné na druhé úrovní pro zpřesnění výsledků. Dva...
Cover song identification is a field of music information retrieval where the task is to determine whether two different audio tracks represent different versions of the same underlying song. Since covers might differ in tempo, key, instrumentation and other characteristics, many clever features have been developed over the years. We perform a rigorous analysis of 32 features used in related works while distinguishing between exact and scalable features. The former are based on a harmonic descriptor time series (typically chroma vectors) and offer better performance at the cost of computation time. The latter have a small constant size and only capture global phenomena in the track, making them fast to compute and suitable for use with large datasets. We then select 7 scalable and 3 exact features to build our own two-level system, with the scalable features used on the first level to prune the dataset and the exact on the second level to refine the results. Two distinct machine learning models are used to combine the scalable resp. exact features. We perform the analysis and the evaluation of our system on the Million Song Dataset. The experiments show the exact features being outperformed by the scalable ones, which lead us to a decision to only use the 7 scalable features in our system. The...