Tilbake til søkeresultatene

FORSKNINGSINFRA-FORSKNINGSINFRA

Norwegian research infrastructure for web data

Alternativ tittel: Nasjonal forskningsinfrastruktur for nettdata

Tildelt: kr 25,0 mill.

WebData vil tilrettelegge for forskning på data fra det norske internett, tilsvarende tjenester som Nettbiblioteket og DH-lab fra Nasjonalbiblioteket for fysisk materiale. WebData vil altså gi forskere adgang til data som ikke er tilgjengelige i en infrastruktur i dag, men som det er et stort behov for. Nasjonalbiblioteket har hentet og lagret data fra det norske internett siden slutten av 1990-tallet og sitter på enorme mengder med data. Dette materialet har man i liten grad kunnet tilgjengeliggjøre, blant annet fordi lovverket setter strenge krav til håndtering av personopplysninger i slike arkiver. Samtidig har den offentlige samtalen for en stor del flyttet seg til nettet, slik at det er blitt viktigere å kunne forske på data fra denne delen av offentligheten. I tillegg spiller data fra nettet en særlig rolle i arbeidet med kunstig intelligens og store språkmodeller. Skal norsk og samisk overleve i den digitale tidsalderen, trenger vi så mye data som mulig av høy kvalitet for å støtte opp under språkteknologi. WebData skal derfor bygge en plattform for forskning på materiale fra nettet i tråd med gjeldende lovverk. Det vil gis åpen tilgang til materiale publisert av det offentlige og adgang for forskningsformål til materiale utgitt med og uten ansvarlig redaktør. Vi vil ta i bruk kunnskap om og verktøy for identifisering og vasking av personopplysninger for å klassifisere materiale og bygge et system for sikker tilgang. Plattformen skal utvikles i tett samarbeid med forskersamfunnet. Vi vil gjennomføre en behovsstudie tidlig i prosjektet for å kartlegge hvilken funksjonalitet forskerne trenger (f.eks. visualisering av ordbruk over tid, uttrekk og analyse av hendelser) som igjen vil legge føringer for tilrettelegging av data. Prosjektet har som mål å styrke samiske språks representasjon. Vi vil gjennomføre en representasjonsstudie for å undersøke hvor godt samisk er dekket i nettarkivet og gjøre tiltak for å forbedre høstingen av samiskspråklig innhold.

The National Library of Norway, a major cultural heritage institution in Norway, joins forces with some of the most prominent research communities for language technology in Norway to create WebData, a national research infrastructure for web data. WebData will offer researchers access to the Norwegian Web Archive, hosted on-premises at the National Library of Norway. The infrastructure will first and foremost consist of a data platform featuring a general purpose search interface for web data from the Norwegian web (the .no top-level domain) from the last 25 years, allowing researchers to search and explore web pages, documents, transcribed audio/video and images. The platform will implement a model of layered access, using automatic categorization and identification of personal information to open parts of the collection that would otherwise be closed due to regulatory policies, which is a major R&D challenge and one of the main reasons why the material is not available today. The web archive will further be scaled up according to the needs of researchers and underrepresented communities, e.g. allowing for quantitative analysis of web data and by increasing the coverage of Sámi web content. The infrastructure will contribute to research on Norwegian and Sámi language and culture and produce language resources, e.g. corpora for large language models, that help prevent domain-loss of these languages. The project is highly interdisciplinary and aims primarily at researchers in the social sciences and humanities, but will also be relevant for e.g. computer science, medicine and law.

Budsjettformål:

FORSKNINGSINFRA-FORSKNINGSINFRA

Finansieringskilder