Development and analysis of a database of reactions catalyzed by cytochrome P450 enzymes for machine learning applications
Vytvoření a analýza databáze reakcí katalyzovaných cytochromy P450 pro strojové učení
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/181527Identifiers
Study Information System: 256448
Collections
- Kvalifikační práce [20356]
Author
Advisor
Referee
Berka, Karel
Faculty / Institute
Faculty of Science
Discipline
Bioinformatics
Department
Department of Cell Biology
Date of defense
5. 6. 2023
Publisher
Univerzita Karlova, Přírodovědecká fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
cytochrom P450, databáze, substrát, produkt, katalyzátor, data mining, distribuce dat, UniProt, RHEAKeywords (English)
cytochrome P450, database, substrate, product, catalyst, data mining, distribution of data, UniProt, RHEACytochromy P450 jsou hemoproteiny vykazující mimořádnou rozmanitost reakcí, které katalyzují. Vyvinuli jsme databázi obsahující všechny potřebné údaje, abychom poskytli komplexní zdroj dat o reakcích katalyzovaných en- zymy cytochromu P450. Tato data zahrnují především informace o substrá- tech, produktech charakterizovaných reakcí a sekvenci těchto enzymů. Data- báze byla vytvořena shromážděním údajů ze spolehlivých databází proteinů a reakcí, jako jsou UniProt a RHEA. Práce představuje hloubkovou ana- lýzu vytvořené databáze reakcí katalyzovaných enzymy cytochromu P450. Tato databáze může být v budoucnu využita pro přístupy strojového učení k předpovídání funkce necharakterizovaných cytochromů P450.
Cytochrome P450 enzymes are hemoproteins showing extraordinary di- versity in the reactions they catalyze. We developed a database containing all the needed data to provide a comprehensive data source on reactions cat- alyzed by cytochrome P450 enzymes. This data mainly includes information about the substrates, products of characterized reactions, and the sequence of these enzymes. The database was developed by collecting data from reliable protein and reaction databases like UniProt and RHEA. The work presents an in-depth analysis of the created database of reactions catalyzed by cy- tochrome P450 enzymes. This database can be utilized for future machine learning approaches to predict the function of uncharacterized cytochrome P450s.