Interactive tool for detecting redundant rows in datasets
Interaktivní nástroj pro odhalení redundantních řádků v datových sadách
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202440Identifikátory
SIS: 281425
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Kopecký, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Databáze a web
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
4. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
datová redundance|detekce redundance|profilování dat|funkční závislosti|interaktivní analýza datKlíčová slova (anglicky)
data redundancy|redundancy detection|data profiling|functional dependencies|interactive data analysisRedundance je běžnou vlastností velkých a heterogenních datových souborů, která často vzniká v důsledku integrace dat, denormalizace nebo návrhu zaměřeného na výkon. Může mít různé podoby, například částečné duplicity, opakující se řádky nebo překrýva- jící se atributy. Spíše než jako problém, který je třeba zcela odstranit, může redundance podporovat rychlejší přístupové vzory, poskytovat odolnost proti chybám nebo nabízet alternativní cesty pro interpretaci dat. Aby bylo možné tyto výhody využít, je nezbytné redundanci zjistit a pochopit strukturovaným a vysvětlitelným způsobem. Tato bakalář- ská práce představuje interaktivní nástroj pro detekci redundantních řádků v souborech CSV. Využívá metody profilování dat, jako je detekce identifikátorů, analýza odkazů a zjišťování funkčních závislostí, k odhalení různých typů redundance. Vyvinutý prototyp nabízí uživatelům intuitivní rozhraní pro prozkoumávání, kontrolu a interpretaci redun- dance.
Redundancy is a common feature of large and heterogeneous datasets, often arising from data integration, denormalization, or performance-oriented design. It can take var- ious forms, such as partial duplicates, repeated rows, or overlapping attributes. Rather than being an issue to eliminate outright, redundancy can support faster access patterns, provide fault tolerance, or offer alternative paths for interpreting data. To take advan- tage of these benefits, it is essential to detect and understand redundancy in a structured and explainable way. This bachelor's thesis introduces an interactive tool for detect- ing redundant rows in CSV files. It relies on data profiling methods such as identifier detection, reference analysis, and functional dependency discovery to find and describe different types of redundancy. The developed prototype offers users an intuitive interface for exploring, checking, and interpreting redundancy.
Citace dokumentu
Metadata
Zobrazit celý záznamSouvisející záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Informace v pojetí Viléma Flussera jako estetický zážitek
Výsledek obhajoby: OBHÁJENOSoukupová, Lenka (Univerzita Karlova, Filozofická fakulta, 2015)Datum obhajoby: 10. 2. 2015Práce se na základě interpretace vybraných textů Viléma Flussera snaží postihnout význam, který v jeho myšlení nabývají estetické kategorie. Klíčem pro pochopení podstaty estetických kategorií je zde koncept jejich závislosti ... -
Teorie komunikace jakožto explanatorní princip přirozené víceúrovňové segmentace textů
Výsledek obhajoby: OBHÁJENOMilička, Jiří (Univerzita Karlova, Filozofická fakulta, 2016)Datum obhajoby: 29. 3. 20161. Na rozdíl od distinktivních rysů a morfémů nejsou hlásky, slova, věty ani souvětí logickou nezbytností jazyka. 2. Přesto je tento nebo podobný druh vnořené segmentace přítomen v různých jazycích a je pevně zakotven i v ... -
Outplacement - možnosti, specifika, limity
Výsledek obhajoby: OBHÁJENODvořáková, Marie (Univerzita Karlova, Filozofická fakulta, 2014)Datum obhajoby: 8. 9. 2014Záměrem této diplomové práce je popsat proces outplacementu a jeho vlivu na propouštěné zaměstnance. První kapitoly jsou věnované propouštění zaměstnanců, jeho důsledkům a společenské zodpovědnosti firem. Další část této ...
