Učící se analyzátor audio-vizuálních záznamů

Košarko, Ondřej

Continously Learning Analyser of Audio-Visual Recordings

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (52.85Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/82961

Identifikátory

SIS: 129612

Katalog UK: 990021107420106986

Oponent práce

Klusáček, David

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

8. 9. 2016

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Dobře

Klíčová slova (česky)

automatické segmentování, audio, video, řeč, audio-vizuální archivy

Klíčová slova (anglicky)

Automatic Segmentation, Audio, Video, Speech, Audio-Visual Archives

V této práci je představen analyzátor audiovizuálních záznamů, který ze zvukové složky záznamu a dodaných titulků vytvoří textovou anotaci. Anotace obsahuje textový přepis pořadu založený na titulcích a je v ní vyznačeno, který z mluvčích danou repliku pronesl. Zjištění počtu mluvčích a jejich přidělení úsekům záznamu zajišťuje externí knihovna, stejně jako detekci úseků s muzikou. V práci je popsáno fungování této knihovny a je vyhodnocena na dostupných datech z korpusu DIALOG. Pro přiřazení textu ke správnému úseku záznamu používáme Kaldi, toolkit pro automatické rozpoznávání řeči. Práce dále obsahuje přehled o tvorbě skrytých titulků, o tvorbě korpusů mluvené řeči a stručný přehled literatury věnující se analýze záznamů. 1

Abstrakt (anglicky)

This thesis introduces a tool for analysis of audiovisual records. The tool uses the audio and closed captions supplied by the user to prepare text annotation. The annotation contains a transcript of the show which is based on the closed captions. In addition, speaker diarization is performed to mark who spoke when. The diarization is performed by a third party library. The library is evaluated on data from DIALOG corpus. The inner workings of the library are described. To assign the right portions of the text to the right section of the record Kaldi, a speech recognition toolkit, is used. Furthermore the thesis contains an overview describing how closed captions are created; overview of speech corpora creation; and a brief review of literature on record analysis. 1

Citace dokumentu

Metadata

Zobrazit celý záznam