Tilbake til søkeresultatene

IKTPLUSS-IKT og digital innovasjon

Machine Learning for the Anonymisation of Unstructured Personal Data

Alternativ tittel: Maskinlæring for anonymisering av ustrukturert persondata

Tildelt: kr 16,0 mill.

Mange offentlig etater og private bedrifter har utfordringer med personlige data som de behandler, samler inn eller produserer. Slike data kan beskrive pasienter, kunder, mottakere av velferdstjenester eller til og med tiltalte i rettssaker. Databaser med slike data er ofte svært verdifulle, også for samfunnet som helhet. Pasientjournaler er for eksempel essensielt for biomedisinsk forskning. Tilsvarende er rettsavgjørelser en viktig kilde for jurister, mens kundedata kan brukes for å forbedre en bedrifts tjenester og kundeopplevelse. Samtidig må data som kan inneholde personlig informasjon behandles i henhold til gjeldende personvernregler, som den nye europeiske personvernforordningen (GDPR). Den sier blant annet at persondata ikke kan utleveres til en tredjepart (eller bli brukt for andre formål enn det dataene ble samlet inn for) uten rettslig grunn, for eksempel gjennom å han innhentet samtykke fra de berørte individene. En løsning er å benytte anonymiseringsteknikker for å beskytte personvernet til de registrerte individene. Dagens anonymiseringsteknikker fungerer dessverre ikke godt nok for ustrukturerte data, slik som tekst. Dette er en stor utfordring, siden dataene i mange saksbehandlingssystemer i stor grad består av tekst (som for eksempel pasientjournaler). Manuell anonymisering er dessuten svært kostbart, følsomt for menneskelige feil og vil være inkonsistent. Manuell anonymisering er i praksis ikke mulig å benytte for store mengder tekst. I CLEANUP-prosjektet ønsker vi å tette dette teknologiske gapet og utvikle nye maskinlæringsmodeller for å automatisk anonymisere tekstdokumenter. CLEANUP utvikler også nye metoder for å evaluere kvaliteten til de nye tekstanonymiseringsteknikkene og samordne disse krav fra lover og reguleringer. Til sist undersøker CLEANUP hvordan de teknologiske løsningene kan integreres i de ulike organisasjonene, spesielt hvordan kvalitetskontroll bør gjennomføres og tilpasses behovene til den enkelte dataeier. I de to første årene har vi jobbet på ulike fronter. Vi har samlet ulike datakilder, blant annet rettsavgjørelser og pasientjournaler. Vi har hatt et stort fokus på utviklingen av et nytt korpus kalt TAB (Text Anonymisation Benchmark) som er blitt annotert manuelt av jusstudenter. Korpuset kommer med nye evalueringsmetoder som kan brukes til å automatisk vurdere anonymiseringskvaliteten. Vi har også jobbet på å analysere og sammenligne eksisterende metoder, og å utvikle nye anonymiseringsmodeller som ikke er avhengig av annoterte data.

The project sets out to develop new computational models and processing techniques to automatically anonymise unstructured data containing personal information, with a specific focus on text documents. The project's key idea is to combine approaches from natural language processing and data privacy to design a new generation of text anonymisation techniques that simultaneously: -Take advantage of state-of-the-art natural language processing techniques (based on deep neural architectures) to derive fine-grained records of the individuals referred to in a given document ; - Connect these individual records to principled measures of disclosure risk and data utility, with the goal of modifying text documents in a way that prevents the disclosure of personal information while preserving as closely as possible the internal coherence and semantic content of the documents. The project will also design dedicated evaluation methods to assess the empirical performance of text anonymisation mechanisms, and examine how these metrics are to be interpreted from a legal perspective, in particular with respect to how privacy risk assessments should be conducted on large amounts of text data. Finally, the project will investigate how these technological solutions can be integrated into organisational processes - in particular how quality control can be performed in direct interaction with text anonymisation tools, and how the level and type of anonymisation can be parametrised to meet the specific needs of the data owner. To achieve these objectives, the project brings together a consortium of researchers with expertise in machine learning, natural language processing, computational privacy, statistical modelling, health informatics and IT law. In addition, external partners from the public and private sector (covering the fields of insurance, welfare, healthcare and legal publishing) will also contribute to the research objectives with their data and domain knowledge.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon