dc.contributor.advisor | Kratochvíl, Miroslav | |
dc.creator | Šmelko, Adam | |
dc.date.accessioned | 2020-07-22T10:14:25Z | |
dc.date.available | 2020-07-22T10:14:25Z | |
dc.date.issued | 2020 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/119191 | |
dc.description.abstract | Hierarchical clustering algorithms are common tools for simplifying, exploring and analyzing datasets in many areas of research. For flow cytometry, a specific variant of agglomerative clustering has been proposed, that uses cluster linkage based on Mahalanobis distance to produce results better suited for the domain. Applicability of this clustering algorithm is currently limited by its relatively high computational complexity, which does not allow it to scale to common cytometry datasets. This thesis describes a specialized, GPU-accelerated version of the Mahalanobis-average linked hierarchical clustering, which improves the algorithm performance by several orders of magnitude, thus allowing it to scale to much larger datasets. The thesis provides an overview of current hierarchical clustering algorithms, and details the construction of the variant used on GPU. The result is benchmarked on publicly available high-dimensional data from mass cytometry. | en_US |
dc.description.abstract | Hierarchické klastrovacie algoritmy sú bežnými nástromi na zjednodušenie, skúmanie a analýzu datasetov v mnohých oblastiach výskumu. Pre prietokovú cytometriu bol navrhnutý špecifický variant aglomeračného zhlukovania, ktorý využíva klastrovanie založené na Mahalanobisovskej vzdialenosti, aby sa dosiahli výsledky, ktoré sa pre danú doménu lepšie hodia. Uplatniteľnosť tohto klastrovacieho algoritmu je v súčasnosti obmedzená jeho pomerne vysokou výpočtovou náročnosťou, ktorá mu neumožňuje škálovať bežné cytometrické datasety. Táto práca popisuje špecializovanú, na GPU- zrýchlenú verziu hierarchického klastrovania založeného na Mahalanobisovskej vzdialenosti, ktorá zlepšuje výkon algoritmu o niekoľko rádov, čo mu umožňuje počítať oveľa väčšie datasety. Práca poskytuje prehľad súčasných hierarchických klastrovacích algoritmov a podrobne popisuje implementáciu algoritmu na GPU. Výsledok sa porovnáva s verejne dostupnými vysokorozmernými údajmi z hmotnostnej cytometrie. | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | clustering | en_US |
dc.subject | high-dimensional data | en_US |
dc.subject | GPU | en_US |
dc.subject | shlukování | cs_CZ |
dc.subject | vysokodimenzionální data | cs_CZ |
dc.subject | GPU | cs_CZ |
dc.title | GPU-accelerated Mahalanobis-average hierarchical clustering | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2020 | |
dcterms.dateAccepted | 2020-07-01 | |
dc.description.department | Department of Software Engineering | en_US |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 220193 | |
dc.title.translated | Hierarchické shlukování s Mahalanobis-average metrikou akcelerované na GPU | cs_CZ |
dc.contributor.referee | Hric, Jan | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Softwarové a datové inženýrství | cs_CZ |
thesis.degree.discipline | Software and Data Engineering | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové a datové inženýrství | cs_CZ |
uk.degree-discipline.en | Software and Data Engineering | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | Hierarchické klastrovacie algoritmy sú bežnými nástromi na zjednodušenie, skúmanie a analýzu datasetov v mnohých oblastiach výskumu. Pre prietokovú cytometriu bol navrhnutý špecifický variant aglomeračného zhlukovania, ktorý využíva klastrovanie založené na Mahalanobisovskej vzdialenosti, aby sa dosiahli výsledky, ktoré sa pre danú doménu lepšie hodia. Uplatniteľnosť tohto klastrovacieho algoritmu je v súčasnosti obmedzená jeho pomerne vysokou výpočtovou náročnosťou, ktorá mu neumožňuje škálovať bežné cytometrické datasety. Táto práca popisuje špecializovanú, na GPU- zrýchlenú verziu hierarchického klastrovania založeného na Mahalanobisovskej vzdialenosti, ktorá zlepšuje výkon algoritmu o niekoľko rádov, čo mu umožňuje počítať oveľa väčšie datasety. Práca poskytuje prehľad súčasných hierarchických klastrovacích algoritmov a podrobne popisuje implementáciu algoritmu na GPU. Výsledok sa porovnáva s verejne dostupnými vysokorozmernými údajmi z hmotnostnej cytometrie. | cs_CZ |
uk.abstract.en | Hierarchical clustering algorithms are common tools for simplifying, exploring and analyzing datasets in many areas of research. For flow cytometry, a specific variant of agglomerative clustering has been proposed, that uses cluster linkage based on Mahalanobis distance to produce results better suited for the domain. Applicability of this clustering algorithm is currently limited by its relatively high computational complexity, which does not allow it to scale to common cytometry datasets. This thesis describes a specialized, GPU-accelerated version of the Mahalanobis-average linked hierarchical clustering, which improves the algorithm performance by several orders of magnitude, thus allowing it to scale to much larger datasets. The thesis provides an overview of current hierarchical clustering algorithms, and details the construction of the variant used on GPU. The result is benchmarked on publicly available high-dimensional data from mass cytometry. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
thesis.grade.code | 2 | |
uk.publication-place | Praha | cs_CZ |