Semi-adaptivní slovníkové kompresní metody

Urban, Tomáš

Semi-adaptive Dictionary compression methods

dc.contributor.advisor	Lánský, Jan
dc.creator	Urban, Tomáš
dc.date.accessioned	2017-04-13T10:36:11Z
dc.date.available	2017-04-13T10:36:11Z
dc.date.issued	2009
dc.identifier.uri	http://hdl.handle.net/20.500.11956/19196
dc.description.abstract	Cílem této diplomové práce bylo navrhnout a experimentálně ověřit postupy vedoucí k vytvoření a kompresi slovníku ze vstupního souboru případně proudu dat, tak aby vstupní soubor po rozdělení na elementy tohoto slovníku byl optimalizován pro následné kompresní algoritmy. Vechny uvaoované metody procházejí vstup nadvakrát. Informace o vstupu získané při prvním průchodu využívají k zefektivnění druhého přechodu. Vytvořený slovník je součástí komprimovaného výstupu, proto je velmi důležitá jeho velikost. První část naš práce popisuje rozšíření již existujících metod TD2 a TD3[4] pro použití nad neomezenou abecedu. Metodu TD2 využíváme k uložení slovníku. Druhá část zkoumá možnosti vytvoření optimálního slovníku a způsob rozdělení vstupu pomocí toho slovníku bez rozlišování slov, slabik. Všechny operace jsou uvažovány nad relativně neomezenou abecedou unicodu. Pro experimenty byl použit modulární program XBW, navržené postupy byly realizovány a otestovány jako modul toho programu.	cs_CZ
dc.description.abstract	Goal of this work was to design and test methods for creating and parsing input data from file or stream in a way they are optimalized for following compression algorithms. We used two runs through data, first run collected analytical data and second run was for parsing. First part of this document is focused on methods TD2 and TD3 [4] for trie compression and their extension for unicode alphabets. In second part there are presented methods for creating dictionary without considering partitiong on words or syllabels. All methods are considered over unicode alphabet and implemetned as part of modular program XBW.	en_US
dc.language	Čeština	cs_CZ
dc.language.iso	cs_CZ
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.title	Semi-adaptivní slovníkové kompresní metody	cs_CZ
dc.type	diplomová práce	cs_CZ
dcterms.created	2009
dcterms.dateAccepted	2009-02-02
dc.description.department	Department of Software Engineering	en_US
dc.description.department	Katedra softwarového inženýrství	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	49148
dc.title.translated	Semi-adaptive Dictionary compression methods	en_US
dc.contributor.referee	Dvořák, Tomáš
dc.identifier.aleph	001122207
thesis.degree.name	Mgr.
thesis.degree.level	magisterské	cs_CZ
thesis.degree.discipline	Software systems	en_US
thesis.degree.discipline	Softwarové systémy	cs_CZ
thesis.degree.program	Informatics	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Katedra softwarového inženýrství	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Department of Software Engineering	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Softwarové systémy	cs_CZ
uk.degree-discipline.en	Software systems	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Informatics	en_US
thesis.grade.cs	Velmi dobře	cs_CZ
thesis.grade.en	Very good	en_US
uk.abstract.cs	Cílem této diplomové práce bylo navrhnout a experimentálně ověřit postupy vedoucí k vytvoření a kompresi slovníku ze vstupního souboru případně proudu dat, tak aby vstupní soubor po rozdělení na elementy tohoto slovníku byl optimalizován pro následné kompresní algoritmy. Vechny uvaoované metody procházejí vstup nadvakrát. Informace o vstupu získané při prvním průchodu využívají k zefektivnění druhého přechodu. Vytvořený slovník je součástí komprimovaného výstupu, proto je velmi důležitá jeho velikost. První část naš práce popisuje rozšíření již existujících metod TD2 a TD3[4] pro použití nad neomezenou abecedu. Metodu TD2 využíváme k uložení slovníku. Druhá část zkoumá možnosti vytvoření optimálního slovníku a způsob rozdělení vstupu pomocí toho slovníku bez rozlišování slov, slabik. Všechny operace jsou uvažovány nad relativně neomezenou abecedou unicodu. Pro experimenty byl použit modulární program XBW, navržené postupy byly realizovány a otestovány jako modul toho programu.	cs_CZ
uk.abstract.en	Goal of this work was to design and test methods for creating and parsing input data from file or stream in a way they are optimalized for following compression algorithms. We used two runs through data, first run collected analytical data and second run was for parsing. First part of this document is focused on methods TD2 and TD3 [4] for trie compression and their extension for unicode alphabets. In second part there are presented methods for creating dictionary without considering partitiong on words or syllabels. All methods are considered over unicode alphabet and implemetned as part of modular program XBW.	en_US
uk.publication.place	Praha	cs_CZ
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství	cs_CZ
dc.identifier.lisID	990011222070106986