Feature Evaluation for Scalable Cover Song Identification Using Machine Learning
Ohodnocení příznaků pro rozpoznávání cover verzí písní pomocí technik strojového učení
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/107046Identifikátory
SIS: 186377
Kolekce
- Kvalifikační práce [10594]
Autor
Vedoucí práce
Oponent práce
Hajič, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Umělá inteligence
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
10. 6. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
music information retrieval, rozpoznávání cover verzí písní, strojové učení, ohodnocení příznakůKlíčová slova (anglicky)
music information retrieval, cover song identification, machine learning, feature evaluationRozpoznávání cover verzí písní je oblast problematiky získávání informací z hudby, která se zabývá úkolem rozpoznat, zda dvě odlišné audio nahrávky obsahují různé verze téže písně. Jelikož cover verze se mohou lišit v tempu, tónině, instrumentaci a dalších vlastnostech, bylo během uplynulých let vytvořeno mnoho důmyslných příznaků vhodných pro tento účel. Pro- vedli jsme důkladnou analýzu 32 příznaků použitých v pracech zabývajících se touto problematikou, přičemž rozlišujeme příznaky přesné a škálovatelné. Přesné příznaky jsou založeny na sekvencích harmonických deskriptorů (ty- picky jsou to tzv. " chroma" vektory) a vedou k lepším výsledkům, avšak za cenu vyšší výpočetní náročnosti. Škálovatelné příznaky mají malou kon- stantní velikost a zachycují pouze obecné rysy dané audio nahrávky, díky čemuž je jejich výpočet rychlý a hodí se tak pro použití s velkými data- sety. Vybrali jsme 7 škálovatelných a 3 přesné příznaky, které jsme použili pro konstrukci našeho dvouúrovňového systému pro rozpoznávání cover verzí, přičemž škálovatelné příznaky jsou použity na první úrovni k prořezání data- setu a přesné na druhé úrovní pro zpřesnění výsledků. Dva...
Cover song identification is a field of music information retrieval where the task is to determine whether two different audio tracks represent different versions of the same underlying song. Since covers might differ in tempo, key, instrumentation and other characteristics, many clever features have been developed over the years. We perform a rigorous analysis of 32 features used in related works while distinguishing between exact and scalable features. The former are based on a harmonic descriptor time series (typically chroma vectors) and offer better performance at the cost of computation time. The latter have a small constant size and only capture global phenomena in the track, making them fast to compute and suitable for use with large datasets. We then select 7 scalable and 3 exact features to build our own two-level system, with the scalable features used on the first level to prune the dataset and the exact on the second level to refine the results. Two distinct machine learning models are used to combine the scalable resp. exact features. We perform the analysis and the evaluation of our system on the Million Song Dataset. The experiments show the exact features being outperformed by the scalable ones, which lead us to a decision to only use the 7 scalable features in our system. The...