Heuristika titulků
Subtitles heuristics
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/81923Identifiers
Study Information System: 159086
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Peška, Ladislav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Distributed and Dependable Systems
Date of defense
7. 9. 2015
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
heuristika, titulky, video, Khanova školaKeywords (English)
heuristics, subtitles, video, Khan AcademyPůvodní myšlenka na heuristiku titulků pochází od Khanovy školy. Ta se zabývá překladem výukových videí a hodil by se jí automatický nástroj kontrolující vytvářené titulky. Charakter kontroly se týká jak aspektů formátu obecně titulků (čas začátku, konce, délka), tak věcí jazykových, tedy souvisejících s češtinou a českým textem. V rámci této práce byl tedy vyvinut software, který načítá titulkový soubor ve formátu SubRip, na něm provede analýzu a výsledky analýzy vrátí ve formátu XML nebo JSON. Celá aplikace je tvořena modulárně a skládá se z řídícího programu a jednotlivých modulů (pluginů), z nichž každý má svojí vymezenou činnost, respektive jednu oblast, v níž provádí analýzu na titulkových objektech. Pluginy samotné jsou realizovány pomocí dynamických knihoven, které jsou dynamicky načítány za běhu řídícího programu. Díky tomu je aplikace jako celek jednoduše rozšiřitelná o nové pluginy, přičemž řídící část se při přidání nových pluginů nemusí překládat znovu. Powered by TCPDF (www.tcpdf.org)
Original idea on this project comes from Khanova škola. This group of people is translating educational videos from Khan Academy and they would like to have an automatic tool, which will check their created subtitles. Character of this check relates with format of subtitles in general (time of beginning, ending, etc.) and also with Czech language and textual form of language. Within the scope of this thesis was developed software, which loads subtitles in SubRip format, on this loaded file analysis is executed and results are returned in XML or JSON format. Whole application is modular and has one main component (control program) and then several modules (plugins). These modules have one area of functioning, in which they execute analysis on subtitle objects. Plugins itself are realised by dynamic libraries, which are dynamicaly loaded on run-time. Thanks to that, application is simply extensible and new plugins can be added without necessity of re-compiling control program. Powered by TCPDF (www.tcpdf.org)