Pseudonymizace textových datových kolekcí pro strojové učení
De-identification of text data collections for machine learning
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/147666Identifiers
Study Information System: 235391
Collections
- Kvalifikační práce [10926]
Author
Advisor
Referee
Nečaský, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
2. 9. 2021
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
pseudonymizace|textový dataset|osobní údaje|GDPR|pojmenované entity|webový nástrojKeywords (English)
pseudonymization|text dataset|personal data|GDPR|named entities|web-based toolTextové datové kolekce vytvářejí prostor pro nové úlohy využívající algoritmy z umělé inteligence. Tyto kolekce často obsahují různé osobní údaje a jiné citlivé informace, které komplikují jejich sdílení a další zpracování kvůli požadavkům na ochranu osobních údajů. Hledání osobních údajů je často řešeno pouze postupným procházením celého textu. Práce si proto klade za cíl vytvořit nástroj, který napomůže anotátorům snižovat riziko úniku osobních údajů z textových datových kolekcí. Nástroj pro snížení rizika využívá pseu- donymizace (tj. nahrazování slov jinými slovy pomocí nějakého klíče). V průběhu ano- tačního procesu nástroj automaticky označuje slova jako "veřejná", "soukromá" a jako "podezřelá". Úkolem anotátora je rozhodovat o "podezřelých slovech" a dohledávat pří- padné chybějící neoznačené citlivé informace. "Soukromá" slova jsou poté předmětem procesu pseudonymizace. Nástroj k automatickému označovaní využívá rozpoznávač po- jmenovaných entit a databázi pravidel. Databáze pravidel se sama průběžně vylepšuje při některých rozhodnutích anotátora. V rámci práce došlo k porovnání různých rozpo- znávačů pojmenovaných entit pro účel vyhledávání osobních údajů na kolekci z projektu ELITR. Při porovnávání byla nalezena metoda, která zvýšila citlivost detekce pojmeno- vaných entit a tím i zvýšila...
Text data collections enable the deployment of artificial intelligence algorithms for novel tasks. Such collections often contain miscellaneous personal data and other sensitive information that complicates sharing and further processing due to the personal data protection requirements. Searching for personal data is often carried out by sequential passes through the complete text. The objective of this thesis is to create a tool that helps the annotators decrease the risk of data leaks from the text collections. The tool utilizes pseudonymization (replacing a word with a different word, based on a set of rules). During the annotation process, the tool tags the words as "public", "private" and "candidate". The task of the annotator is to determine the role of the candidate words and detect any other untagged private information. The private words then become the subject of the pseudonymization process. The auto-tagging tool utilizes a named entity recognizer and a database of rules. The database is automatically improved based on the decisions of the annotator. Different named entity recognizers were compared for the purpose of personal data search on the collection of the ELITR project. During the comparison, a method was found which increased the sensitivity of the named entities detection which also...