WebData vil tilrettelegge for forskning på data fra det norske internett, tilsvarende tjenester som Nettbiblioteket og DH-lab fra Nasjonalbiblioteket for fysisk materiale. WebData vil altså gi forskere adgang til data som ikke er tilgjengelige i en infrastruktur i dag, men som det er et stort behov for.
Nasjonalbiblioteket har hentet og lagret data fra det norske internett siden slutten av 1990-tallet og sitter på enorme mengder med data. Dette materialet har man i liten grad kunnet tilgjengeliggjøre, blant annet fordi lovverket setter strenge krav til håndtering av personopplysninger i slike arkiver. Samtidig har den offentlige samtalen for en stor del flyttet seg til nettet, slik at det er blitt viktigere å kunne forske på data fra denne delen av offentligheten. I tillegg spiller data fra nettet en særlig rolle i arbeidet med kunstig intelligens og store språkmodeller. Skal norsk og samisk overleve i den digitale tidsalderen, trenger vi så mye data som mulig av høy kvalitet for å støtte opp under språkteknologi.
WebData skal derfor bygge en plattform for forskning på materiale fra nettet i tråd med gjeldende lovverk. Det vil gis åpen tilgang til materiale publisert av det offentlige og adgang for forskningsformål til materiale utgitt med og uten ansvarlig redaktør. Vi vil ta i bruk kunnskap om og verktøy for identifisering og vasking av personopplysninger for å klassifisere materiale og bygge et system for sikker tilgang.
Plattformen utvikles i tett samarbeid med forskersamfunnet. Vi er i sluttfasen av en behovsstudie for å kartlegge hvilken funksjonalitet forskerne trenger (f.eks. visualisering av ordbruk over tid, uttrekk og analyse av hendelser) som igjen vil legge føringer for tilrettelegging av data. Prosjektet har som mål å styrke samiske språks representasjon. Vi gjennomfører en representasjonsstudie for å undersøke hvor godt samisk er dekket i nettarkivet og gjøre tiltak for å forbedre høstingen av samiskspråklig innhold.
I september 2025 ble det arrangert et kick-off-seminar på Nasjonalbiblioteket med presentasjoner fra alle arbeidspakker. Samtidig ble nettstedet webdata.nb.no lansert. Høsten 2025 ble det avholdt to workshoper for potensielle brukere fra forskningssektoren. I tillegg har vi bygget en prototype av prosjektplattformen til bruk i utviklingsfasen.
Prosjektpartnere er Norsk regnesentral, Universitetet i Oslo (Humit og LTG) og Universitetet i Tromsø (Giellatekno).
The National Library of Norway, a major cultural heritage institution in Norway, joins forces with some of the most prominent research communities for language technology in Norway to create WebData, a national research infrastructure for web data. WebData will offer researchers access to the Norwegian Web Archive, hosted on-premises at the National Library of Norway. The infrastructure will first and foremost consist of a data platform featuring a general purpose search interface for web data from the Norwegian web (the .no top-level domain) from the last 25 years, allowing researchers to search and explore web pages, documents, transcribed audio/video and images.
The platform will implement a model of layered access, using automatic categorization and identification of personal information to open parts of the collection that would otherwise be closed due to regulatory policies, which is a major R&D challenge and one of the main reasons why the material is not available today. The web archive will further be scaled up according to the needs of researchers and underrepresented communities, e.g. allowing for quantitative analysis of web data and by increasing the coverage of Sámi web content. The infrastructure will contribute to research on Norwegian and Sámi language and culture and produce language resources, e.g. corpora for large language models, that help prevent domain-loss of these languages.
The project is highly interdisciplinary and aims primarily at researchers in the social sciences and humanities, but will also be relevant for e.g. computer science, medicine and law.