Dance Recognition from Audio Recordings

Pavlín, Tomáš

Rozpoznávání tance ze zvukových záznamů

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (151.6Kb)

Permanent link

http://hdl.handle.net/20.500.11956/116600

Identifiers

Study Information System: 213046

Referee

Moudřík, Josef

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Artificial Intelligence

Department

Department of Theoretical Computer Science and Mathematical Logic

Date of defense

3. 2. 2020

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

ballroom, dance, genre, classification, CNN, audio, music

Navrhujeme metodu založenou na konvolučních sítích (CNN) pro klasifikování deseti druhů společenských tanců ze zvukových záznamů, pěti latinskoamerických a pěti standardních. Konkrétně rozpoznáváme tance cha-cha, jive, paso doble, rumba, samba, quickstep, slowfox, waltz, tango a valčík. Využíváme spektrogramy zvukových signálů a používáme je jako obrázky, které jsou vstupem CNN. Klasifikace je provedena nezávisle na pětisekundových segmentech spektrogramů pomocí posuvného okénka a výsledky jsou poté agregovány. Metodu testujeme na následujících datasetech: Na zveřejněném Extended Ballroom datasetu (Marchand and Peeters, 2016) a dvou námi vytvořených datasetech, jednom s nahrávkami studiové kvality a dalším s nahrávkami na mobilní telefon. Pro zmíněné datasety jsme postupně dosáhli úspěšnosti 93.9%, 96.7% a 89.8%. Naše řešení funguje v reálném čase a jako ukázku jsme implementovali webovou aplikaci.

Abstract (English)

We propose a CNN-based approach to classify ten genres of ballroom dances given audio recordings, five latin and five standard, namely Cha Cha Cha, Jive, Paso Doble, Rumba, Samba, Quickstep, Slow Foxtrot, Slow Waltz, Tango and Viennese Waltz. We utilize a spectrogram of an audio signal and we treat it as an image that is an input of the CNN. The classification is performed independently by 5-seconds spectrogram segments in sliding window fashion and the results are then aggregated. The method was tested on following datasets: Publicly available Extended Ballroom dataset collected by Marchand and Peeters, 2016 and two YouTube datasets collected by us, one in studio quality and the other, more challenging, recorded on mobile phones. The method achieved accuracy 93.9%, 96.7% and 89.8% respectively. The method runs in real-time. We implemented a web application to demonstrate the proposed method.

Citace dokumentu

Metadata

Show full item record