dc.contributor.advisor | Špelda, Petr | |
dc.creator | Kanát, Antonín | |
dc.date.accessioned | 2024-04-08T13:24:40Z | |
dc.date.available | 2024-04-08T13:24:40Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/188553 | |
dc.description.abstract | This thesis explores the potential of applying machine learning (ML) to assist with open source intelligence (OSINT) analysis. As the shared input of both disciplines, data is the primary lens through which the topic is examined. To understand the entire process of deploying an ML model from data collection to analysis, an image classifier of Russian vehicle losses in the invasion of Ukraine was trained and tested. Trained on a dataset of over 50,000 labelled images from the WarSpotting database, the classifier achieved a decent accuracy of 79% on evaluation data on the five most populous categories of images. On testing data from a later period, the performance dropped to 62%. One explanation offered is that the static frontlines and the prominence of drones led to most of the recent imagery being aerial, while the training data was captured mainly from the ground. That result demonstrated how inevitable changes, even in seemingly well-curated data, can lead to the low performance of ML models in deployment. Beyond changes on the battlefield, deeper data issues came to light, including the cascading effects of early data management decisions and dataset imbalance. Overall, current image classification methods do not work well on the noisy data available. | en_US |
dc.description.abstract | Tato práce se zabývá možnostmi využití strojového učení (ML) při analýze zpravodajských informací z otevřených zdrojů (OSINT). Vzhledem k tomu, že data jsou společným vstupem obou oborů, jsou data hlavní optikou, kterou je téma zkoumáno. Pro pochopení celého procesu nasazení ML modelu od sběru dat až po jejich analýzu byl vycvičen a otestován obrazový klasifikátor ztrát ruských vozidel při invazi na Ukrajinu. Tento klasifikátor, vycvičený na více než 50 000 obrázcích z databáze WarSpotting, dosáhl slušné přesnosti 79 % na tréninkových datech pěti nejpočetnějších kategorií snímků. Na testovacích datech z pozdějšího období klesl výkon na 62 %. Jedno z nabízených vysvětlení je, že statické frontové linie a rozšíření dronů vedly k tomu, že většina nedávných snímků byla pořízena ze vzduchu, zatímco tréninková data byla pořízena převážně ze země. Tento výsledek ukázal, jak nevyhnutelné změny i ve zdánlivě dobře spravovaných datech mohou vést k nízkému výkonu ML modelů při nasazení. Kromě změn na bojišti vyšly najevo i hlubší problémy s daty, včetně kaskádových účinků raných rozhodnutí o procesování dat a jejich nevyváženosti. Celkově lze říci, že současné metody klasifikace obrazu nefungují dobře na dostupných nedokonalých datech. | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Fakulta sociálních věd | cs_CZ |
dc.subject | OSINT | cs_CZ |
dc.subject | Strojové učení | cs_CZ |
dc.subject | Klasifikace obrazu | cs_CZ |
dc.subject | Válka na Ukrajině | cs_CZ |
dc.subject | Data | cs_CZ |
dc.subject | Sledování ztrát | cs_CZ |
dc.subject | OSINT | en_US |
dc.subject | Machine Learning | en_US |
dc.subject | Image Classification | en_US |
dc.subject | Ukraine War | en_US |
dc.subject | Data | en_US |
dc.subject | Loss Tracking | en_US |
dc.title | MLOSINT: Classifying Vehicle Losses in Ukraine | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-01-31 | |
dc.description.department | Department of Security Studies | en_US |
dc.description.department | Katedra bezpečnostních studií | cs_CZ |
dc.description.faculty | Faculty of Social Sciences | en_US |
dc.description.faculty | Fakulta sociálních věd | cs_CZ |
dc.identifier.repId | 266568 | |
dc.title.translated | MLOSINT: Klasifikace ztrát techniky na Ukrajině | cs_CZ |
dc.contributor.referee | Střítecký, Vít | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | International Security Studies with specialisation in Security, Technology and Society | en_US |
thesis.degree.discipline | Bezpečnostní studia se specializací Bezpečnost, technologie a společnost | cs_CZ |
thesis.degree.program | International Security Studies | en_US |
thesis.degree.program | Bezpečnostní studia | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Fakulta sociálních věd::Katedra bezpečnostních studií | cs_CZ |
uk.taxonomy.organization-en | Faculty of Social Sciences::Department of Security Studies | en_US |
uk.faculty-name.cs | Fakulta sociálních věd | cs_CZ |
uk.faculty-name.en | Faculty of Social Sciences | en_US |
uk.faculty-abbr.cs | FSV | cs_CZ |
uk.degree-discipline.cs | Bezpečnostní studia se specializací Bezpečnost, technologie a společnost | cs_CZ |
uk.degree-discipline.en | International Security Studies with specialisation in Security, Technology and Society | en_US |
uk.degree-program.cs | Bezpečnostní studia | cs_CZ |
uk.degree-program.en | International Security Studies | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato práce se zabývá možnostmi využití strojového učení (ML) při analýze zpravodajských informací z otevřených zdrojů (OSINT). Vzhledem k tomu, že data jsou společným vstupem obou oborů, jsou data hlavní optikou, kterou je téma zkoumáno. Pro pochopení celého procesu nasazení ML modelu od sběru dat až po jejich analýzu byl vycvičen a otestován obrazový klasifikátor ztrát ruských vozidel při invazi na Ukrajinu. Tento klasifikátor, vycvičený na více než 50 000 obrázcích z databáze WarSpotting, dosáhl slušné přesnosti 79 % na tréninkových datech pěti nejpočetnějších kategorií snímků. Na testovacích datech z pozdějšího období klesl výkon na 62 %. Jedno z nabízených vysvětlení je, že statické frontové linie a rozšíření dronů vedly k tomu, že většina nedávných snímků byla pořízena ze vzduchu, zatímco tréninková data byla pořízena převážně ze země. Tento výsledek ukázal, jak nevyhnutelné změny i ve zdánlivě dobře spravovaných datech mohou vést k nízkému výkonu ML modelů při nasazení. Kromě změn na bojišti vyšly najevo i hlubší problémy s daty, včetně kaskádových účinků raných rozhodnutí o procesování dat a jejich nevyváženosti. Celkově lze říci, že současné metody klasifikace obrazu nefungují dobře na dostupných nedokonalých datech. | cs_CZ |
uk.abstract.en | This thesis explores the potential of applying machine learning (ML) to assist with open source intelligence (OSINT) analysis. As the shared input of both disciplines, data is the primary lens through which the topic is examined. To understand the entire process of deploying an ML model from data collection to analysis, an image classifier of Russian vehicle losses in the invasion of Ukraine was trained and tested. Trained on a dataset of over 50,000 labelled images from the WarSpotting database, the classifier achieved a decent accuracy of 79% on evaluation data on the five most populous categories of images. On testing data from a later period, the performance dropped to 62%. One explanation offered is that the static frontlines and the prominence of drones led to most of the recent imagery being aerial, while the training data was captured mainly from the ground. That result demonstrated how inevitable changes, even in seemingly well-curated data, can lead to the low performance of ML models in deployment. Beyond changes on the battlefield, deeper data issues came to light, including the cascading effects of early data management decisions and dataset imbalance. Overall, current image classification methods do not work well on the noisy data available. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Fakulta sociálních věd, Katedra bezpečnostních studií | cs_CZ |
thesis.grade.code | A | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |