IKTPLUSS-IKT og digital innovasjon

Mange offentlig etater og private bedrifter har utfordringer med personlige data som de behandler, samler inn eller produserer. Slike data kan beskrive pasienter, kunder, mottakere av velferdstjenester eller til og med tiltalte i rettssaker. Databaser med slike data er ofte svært verdifulle, også for samfunnet som helhet. Pasientjournaler er for eksempel essensielt for biomedisinsk forskning. Tilsvarende er rettsavgjørelser en viktig kilde for jurister, mens kundedata kan brukes for å forbedre en bedrifts tjenester og kundeopplevelse. Samtidig må data som kan inneholde personlig informasjon behandles i henhold til gjeldende personvernregler, som den nye europeiske personvernforordningen (GDPR). Den sier blant annet at persondata ikke kan utleveres til en tredjepart (eller bli brukt for andre formål enn det dataene ble samlet inn for) uten rettslig grunn, for eksempel gjennom å han innhentet samtykke fra de berørte individene. En løsning er å benytte anonymiseringsteknikker for å beskytte personvernet til de registrerte individene. Dagens anonymiseringsteknikker fungerer dessverre ikke godt nok for ustrukturerte data, slik som tekst. Dette er en stor utfordring, siden dataene i mange saksbehandlingssystemer i stor grad består av tekst (som for eksempel pasientjournaler). Manuell anonymisering er dessuten svært kostbart, følsomt for menneskelige feil og vil være inkonsistent. Manuell anonymisering er i praksis ikke mulig å benytte for store mengder tekst. I CLEANUP-prosjektet ønsker vi å tette dette teknologiske gapet og utvikle nye maskinlæringsmodeller for å automatisk anonymisere tekstdokumenter. CLEANUP utvikler også nye metoder for å evaluere kvaliteten til de nye tekstanonymiseringsteknikkene og samordne disse krav fra lover og reguleringer. Til sist undersøker CLEANUP hvordan de teknologiske løsningene kan integreres i de ulike organisasjonene, spesielt hvordan kvalitetskontroll bør gjennomføres og tilpasses behovene til den enkelte dataeier. I de to første årene har vi jobbet på ulike fronter. Vi har samlet ulike datakilder, blant annet rettsavgjørelser og pasientjournaler. Vi har hatt et stort fokus på utviklingen av et nytt korpus kalt TAB (Text Anonymisation Benchmark) som er blitt annotert manuelt av jusstudenter. Korpuset kommer med nye evalueringsmetoder som kan brukes til å automatisk vurdere anonymiseringskvaliteten. Vi har også jobbet på å analysere og sammenligne eksisterende metoder, og å utvikle nye anonymiseringsmodeller som ikke er avhengig av annoterte data.

The project sets out to develop new computational models and processing techniques to automatically anonymise unstructured data containing personal information, with a specific focus on text documents. The project's key idea is to combine approaches from natural language processing and data privacy to design a new generation of text anonymisation techniques that simultaneously: -Take advantage of state-of-the-art natural language processing techniques (based on deep neural architectures) to derive fine-grained records of the individuals referred to in a given document ; - Connect these individual records to principled measures of disclosure risk and data utility, with the goal of modifying text documents in a way that prevents the disclosure of personal information while preserving as closely as possible the internal coherence and semantic content of the documents. The project will also design dedicated evaluation methods to assess the empirical performance of text anonymisation mechanisms, and examine how these metrics are to be interpreted from a legal perspective, in particular with respect to how privacy risk assessments should be conducted on large amounts of text data. Finally, the project will investigate how these technological solutions can be integrated into organisational processes - in particular how quality control can be performed in direct interaction with text anonymisation tools, and how the level and type of anonymisation can be parametrised to meet the specific needs of the data owner. To achieve these objectives, the project brings together a consortium of researchers with expertise in machine learning, natural language processing, computational privacy, statistical modelling, health informatics and IT law. In addition, external partners from the public and private sector (covering the fields of insurance, welfare, healthcare and legal publishing) will also contribute to the research objectives with their data and domain knowledge.

Publikasjoner hentet fra Cristin

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon

2,6MRD. KRtotalt tildelt i programperioden 658PROSJEKTERhar fått tildeling i programperioden 8KILDERhar finansiert programmet

Finansieringskilder

Kunnskapsdepartement Justis- og beredskap Kommunal-og distrikt Samferdselsdeparteme Diverse Nærings- og fiskerid Forsvarsdepartemente Digitaliserings- og

Temaer og emner

Politikk- og forvaltningsområder Forskning Politikk- og forvaltningsområder Offentlig administrasjon og forvaltning Digitalisering og bruk av IKT Privat sektor Internasjonalisering Grunnforskning IKT Politikk- og forvaltningsområder Internasjonalisering Internasjonalt prosjektsamarbeid Portefølje Innovasjon IKT forskningsområde Menneske, samfunn og teknologi Delportefølje Et velfungerende forskningssystem Digitalisering og bruk av IKT eVitenskap IKT forskningsområde Digital sikkerhet Politikk- og forvaltningsområder Digitalisering Anvendt forskning Portefølje Demokrati og global utvikling LTP3 IKT og digital transformasjon LTP3 Styrket konkurransekraft og innovasjonsevne Portefølje Banebrytende forskning LTP3 Høy kvalitet og tilgjengelighet LTP3 Muliggjørende og industrielle teknologier LTP3 Fagmiljøer og talenter Bransjer og næringer IKT-næringen Delportefølje Internasjonalisering IKT forskningsområde Kunstig intelligens, maskinlæring og dataanalyse Portefølje Muliggjørende teknologier IKT forskningsområde LTP3 Samfunnssikkerhet og beredskap LTP3 Et kunnskapsintensivt næringsliv i hele landet Bransjer og næringer Digitalisering og bruk av IKT LTP3 Samfunnsikkerhet, sårbarhet og konflikt Delportefølje Kvalitet Portefølje Forskningssystemet Digitalisering og bruk av IKT Offentlig sektor Samfunnssikkerhet

IKTPLUSS-IKT og digital innovasjon

Machine Learning for the Anonymisation of Unstructured Personal Data

Alternativ tittel: Maskinlæring for anonymisering av ustrukturert persondata

Tildelt: kr 16,0 mill.

Populærvitenskapelig framstilling

Sammendrag

Publikasjoner hentet fra Cristin

A Critical Review on the Use (and Misuse) of Differential Privacy in Machine Learning

Generation of Replacement Options in Text Sanitization

The GDPR and Unstructured Data: Is Anonymisation Possible?

Bootstrapping Text Anonymization Models with Distant Supervision

Automatic Evaluation of Disclosure Risks of Text Anonymization Methods

Neural Text Sanitization with Explicit Measures of Privacy Risk

The text anonymization benchmark (TAB): A dedicated corpus and evaluation framework for text anonymization

Hva er universell utforming?

Utviklere av kunstig intelligens ber om klare rammer

Innspillsmøte om fremvoksende teknologier

Episode 5: Hva er språkteknologi (eller NLP)? Med Pierre Lison

Episode 6: Kan språkteknologi virkelig forstå språk? Med Ingrid Lossius Falkum og Pierre Lison

Panelsamtale om regulatoriske sandkasser som verktøy for digitalisering

Kan kunstig intelligens "forstå" språk?

Kunstig intelligens og personvern: et (u)lykkelig ekteskap?

Publishing Judgments in Europe: Publicity vs Privacy

Anonymisering av ustrukturerte data og utvikling av språkmodeller

Anonymization of sensitive information

Hva er egentlig kunstig intelligens – og hvor er fallgruvene?

Hva er egentlig maskinlæring – og kan robotene ta over jobbene våre?

Hvilket fremmedspråk bør man lære seg i Google-oversettelsenes tidsalder?

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon

Finansieringskilder

Temaer og emner