Dance Recognition from Audio Recordings
Rozpoznávání tance ze zvukových záznamů
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/116600Identifiers
Study Information System: 213046
Collections
- Kvalifikační práce [10690]
Author
Advisor
Referee
Moudřík, Josef
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Department of Theoretical Computer Science and Mathematical Logic
Date of defense
3. 2. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
ballroom, dance, genre, classification, CNN, audio, musicNavrhujeme metodu založenou na konvolučních sítích (CNN) pro klasifikování deseti druhů společenských tanců ze zvukových záznamů, pěti latinskoamerických a pěti standardních. Konkrétně rozpoznáváme tance cha-cha, jive, paso doble, rumba, samba, quickstep, slowfox, waltz, tango a valčík. Využíváme spektrogramy zvukových signálů a používáme je jako obrázky, které jsou vstupem CNN. Klasifikace je provedena nezávisle na pětisekundových segmentech spektrogramů pomocí posuvného okénka a výsledky jsou poté agregovány. Metodu testujeme na následujících datasetech: Na zveřejněném Extended Ballroom datasetu (Marchand and Peeters, 2016) a dvou námi vytvořených datasetech, jednom s nahrávkami studiové kvality a dalším s nahrávkami na mobilní telefon. Pro zmíněné datasety jsme postupně dosáhli úspěšnosti 93.9%, 96.7% a 89.8%. Naše řešení funguje v reálném čase a jako ukázku jsme implementovali webovou aplikaci.
We propose a CNN-based approach to classify ten genres of ballroom dances given audio recordings, five latin and five standard, namely Cha Cha Cha, Jive, Paso Doble, Rumba, Samba, Quickstep, Slow Foxtrot, Slow Waltz, Tango and Viennese Waltz. We utilize a spectrogram of an audio signal and we treat it as an image that is an input of the CNN. The classification is performed independently by 5-seconds spectrogram segments in sliding window fashion and the results are then aggregated. The method was tested on following datasets: Publicly available Extended Ballroom dataset collected by Marchand and Peeters, 2016 and two YouTube datasets collected by us, one in studio quality and the other, more challenging, recorded on mobile phones. The method achieved accuracy 93.9%, 96.7% and 89.8% respectively. The method runs in real-time. We implemented a web application to demonstrate the proposed method.