Srovnání podobností hmotnostních spekter a struktur malých molekul
Comparison of similarities of mass spectra and structures of small molecules
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/191360Identifiers
Study Information System: 267705
Collections
- Kvalifikační práce [20129]
Author
Advisor
Referee
Škrhák, Vít
Faculty / Institute
Faculty of Science
Discipline
Bioinformatics
Department
Department of Cell Biology
Date of defense
19. 6. 2024
Publisher
Univerzita Karlova, Přírodovědecká fakultaLanguage
Czech
Grade
Good
Keywords (Czech)
strukturní podobnost, hmotnostní spektrometrie, Spec2Vec, kosinová podobnost, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, malé molekuly, bioinformatikaKeywords (English)
structural similarity, mass spectrometry, Spec2Vec, cosine similarity, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, small molecules, bioinformaticsMetody pro měření podobnosti hmotnostních spekter a struktur malých molekul jsou důležité pro pokroky v lékařské chemii, farmakologii a metabolomice. Mezi běžně využívané metody pro porovnání hmotnostních spekter molekul patří kosinová podobnost. Jedná se o míru podobnosti mezi dvěma nenulovými vektory, která měří kosinus úhlu mezi nimi. Porovnání hmotnostních spekter molekul umožňuje vyhledávání v databázích molekul, klastrování spekter a vyhledávání ve spektrálních knihovnách. Strukturní podobnost se pak měří na základě nejrůznějších molekulárních fungerprintů, jako jsou například Daylight fingerprint, RDKit fingerprint, Atom-Pair Fingerprint, Topological Torsion Fingerprint, Extended-Connectivity Fingerprint a další. Tyto fingerprinty jsou pak porovnávány pomocí koeficientů podobnosti. Zmíněné metody pro porovnávání struktur a hmotnostních spekter molekul lze aplikovat pomocí bioinformatických knihoven RDKit a CDK pro generování a analýzu strukturních fingerprintů a knihovny matchms pro porovnání hmotnostních spekter. Práce poskytuje teoretický přehled jak molekulárních deskriptorů, zahrnující rozmanité typy molekulárních fingerprintů a techniky pro měření strukturní podobnosti, tak principu hmotnostní spektrometrie a přístupu k porovnání hmotnostních spekter. Praktická část práce je zaměřena na...
Methods for measuring the similarity of mass spectra and the structures of small molecules are crucial for advancements in medicinal chemistry, pharmacology, and metabolomics. One commonly used method for comparing the mass spectra of molecules is cosine similarity. This measures the similarity between two non-zero vectors by calculating the cosine of the angle between them. Comparing the mass spectra of molecules enables searching in molecular databases, clustering of spectra, and exploration of spectral libraries. Structural similarity is measured based on various molecular fingerprints, such as Daylight, RDKit, Atom-Pair, Topological Torsion, Extended-Connectivity fingerprints, and others. These fingerprints are compared using similarity coefficients. The methods for comparing structures and mass spectra of molecules mentioned can be applied using bioinformatic libraries such as RDKit and CDK for generating and analyzing structural fingerprints, and the MatchMS library for comparing mass spectra. The work provides a theoretical overview of molecular descriptors, including various types of molecular fingerprints and techniques for measuring structural similarity, as well as the principles of mass spectrometry and approaches to comparing mass spectra. The practical part of the work focuses on...