Mange offentlig etater og private bedrifter har utfordringer med personlige data som de behandler, samler inn eller produserer. Slike data kan beskrive pasienter, kunder, mottakere av velferdstjenester eller til og med tiltalte i rettssaker. Databaser med slike data er ofte svært verdifulle, også for samfunnet som helhet. Pasientjournaler er for eksempel essensielt for biomedisinsk forskning. Tilsvarende er rettsavgjørelser en viktig kilde for jurister, mens kundedata kan brukes for å forbedre en bedrifts tjenester og kundeopplevelse.
Samtidig må data som kan inneholde personlig informasjon behandles i henhold til gjeldende personvernregler, som den nye europeiske personvernforordningen (GDPR). Den sier blant annet at persondata ikke kan utleveres til en tredjepart (eller bli brukt for andre formål enn det dataene ble samlet inn for) uten rettslig grunn, for eksempel gjennom å han innhentet samtykke fra de berørte individene. En løsning er å benytte anonymiseringsteknikker for å beskytte personvernet til de registrerte individene. Dagens anonymiseringsteknikker fungerer dessverre ikke godt nok for ustrukturerte data, slik som tekst. Dette er en stor utfordring, siden dataene i mange saksbehandlingssystemer i stor grad består av tekst (som for eksempel pasientjournaler). Manuell anonymisering er dessuten svært kostbart, følsomt for menneskelige feil og vil være inkonsistent. Manuell anonymisering er i praksis ikke mulig å benytte for store mengder tekst.
I CLEANUP-prosjektet ønsker vi å tette dette teknologiske gapet og utvikle nye maskinlæringsmodeller for å automatisk anonymisere tekstdokumenter. CLEANUP utvikler også nye metoder for å evaluere kvaliteten til de nye tekstanonymiseringsteknikkene og samordne disse krav fra lover og reguleringer. Til sist undersøker CLEANUP hvordan de teknologiske løsningene kan integreres i de ulike organisasjonene, spesielt hvordan kvalitetskontroll bør gjennomføres og tilpasses behovene til den enkelte dataeier.
I de to første årene har vi jobbet på ulike fronter. Vi har samlet ulike datakilder, blant annet rettsavgjørelser og pasientjournaler. Vi har hatt et stort fokus på utviklingen av et nytt korpus kalt TAB (Text Anonymisation Benchmark) som er blitt annotert manuelt av jusstudenter. Korpuset kommer med nye evalueringsmetoder som kan brukes til å automatisk vurdere anonymiseringskvaliteten. Vi har også jobbet på å analysere og sammenligne eksisterende metoder, og å utvikle nye anonymiseringsmodeller som ikke er avhengig av annoterte data. I 2023 og 2024 har vi videreutviklet disse metodene, blant annet ved å:
- utvikle metoder for å automatisk kvantifisere personvernrisikoen knyttet til en bestemt avidentifisering
- bygge opp modeller som kan automatisk velge passende erstatninger for tekstsegmenter som inneholder personopplysninger
- anvende disse forskningsresultatene i konkrete verktøy, bl.a. til å avidentifisere pasientjournaler
The CLEANUP project contributed to the development of improved methods for text de-identification. Many public and private organisations are storing text data with personal information as part of their activities. This data has high value both for the organisation itself and for society at large. However, the presence of personal information prevents its use for secondary purposes without the consent of each individual. De-identification are a principled solution to this problem. Manual anonymisation is, however, extremely costly and prone to errors, omissions and inconsistencies. The development of automated de-identification methods will therefore provide substantial benefits to organisations processing or collecting personal data in unstructured form.
Some of the key contributions of the CLEANUP project include:
1) the release of the Text Anonymization Benchmark (TAB), a new dataset devoted to the evaluation of de-identification methods. TAB comprises 1,268 English-language court cases from the European Court of Human Rights (ECHR) manually annotated with semantic categories for personal identifiers, masking decisions (based on the re-identification risk for the person to protect), confidential attributes and co-reference relations. Since its release, TAB has been employed by multiple research groups to evaluate and compare de-identification techniques.
2) The demonstration, detailed in a paper published in 2022 in the International Data Privacy Law journal, that the currently dominant interpretation of GDPR requirements regarding anonymisation makes it in practice impossible to anonymize (in a GDPR-compliant manner) unstructured data such as texts or images, and this regardless of the type and strength of the de-identification process.
3) The design of new methods to automatically evaluate the performance of de-identification methods, either using manually annotated documents (such as in TAB) or without access to such annotations.
4) The development, together with the Norwegian Health Archives, of a new software tool for de-identifying scanned patient records. This tool relies on a combination of handcrafted rules and large language models fine-tuned for this specific task.
5) The publication of a practical, step-by-step guide for the de-identification of text documents, available on https://data.nav.no/fortelling/cleanup-guide/
The project sets out to develop new computational models and processing techniques to automatically anonymise unstructured data containing personal information, with a specific focus on text documents.
The project's key idea is to combine approaches from natural language processing and data privacy to design a new generation of text anonymisation techniques that simultaneously:
-Take advantage of state-of-the-art natural language processing techniques (based on deep neural architectures) to derive fine-grained records of the individuals referred to in a given document ;
- Connect these individual records to principled measures of disclosure risk and data utility, with the goal of modifying text documents in a way that prevents the disclosure of personal information while preserving as closely as possible the internal coherence and semantic content of the documents.
The project will also design dedicated evaluation methods to assess the empirical performance of text anonymisation mechanisms, and examine how these metrics are to be interpreted from a legal perspective, in particular with respect to how privacy risk assessments should be conducted on large amounts of text data. Finally, the project will investigate how these technological solutions can be integrated into organisational processes - in particular how quality control can be performed in direct interaction with text anonymisation tools, and how the level and type of anonymisation can be parametrised to meet the specific needs of the data owner.
To achieve these objectives, the project brings together a consortium of researchers with expertise in machine learning, natural language processing, computational privacy, statistical modelling, health informatics and IT law. In addition, external partners from the public and private sector (covering the fields of insurance, welfare, healthcare and legal publishing) will also contribute to the research objectives with their data and domain knowledge.