Tilbake til søkeresultatene

TU-Tungt utstyr

Norsk aviskorpus - bearbeiding og tilgjengeliggjøring

Tildelt: kr 2,8 mill.

Ved Unifobs Avdeling for språk, kultur og informasjonsvitenskap (Aksis) er det nylig samlet inn et omfattende tekstmateriale bestående av norske avistekster. Materialet omfatter ca. 485 millioner ord og består av ubehandlete tekster på bokmål og nynorsk. Målet med prosjektet Norsk aviskorpus - bearbeiding og tilgjengeliggjøring er å gjennomføre nødvendig videreutvikling og kvalitetssikring av tekstkorpuset og gjøre det tilgjengelig og anvendelig for språkvitenskapelig forskning. Arbeidet innebærer å bygge opp en samling dataverktøy for automatisk innhenting, bearbeiding og annotasjon av avistekstene, samt å klargjøre selve korpuset for språkvitenskapelig forskning og for språkteknologisk utviklingsarbeid. For å sikre at forskningsressursen holder den nødv endige kvalitet vil det bli tilpasset gjeldende internasjonal standard og evaluert av eksterne eksperter gjennom organisasjonen ELRA. Aviskorpuset vil bli gjort tilgjengelig vederlagsfritt for forskere ved universiteter og høyskoler. Hensikten med å byg ge opp denne forskningsressursen er å legge til rette for empiriske studier av norsk språk slik det forekommer i aviskorpuset, og dermed bidra til økt kunnskap om skriftspråkets bruk og dets diakrone utvikling. Databasen er selvekspanderende, og lister ov er nye ord i språket blir automatisk ekstrahert daglig. Dette gir mulighet for kontinuerlig overvåking av nyorddanningsprosesser og annen språklig utvikling. Bearbeiding og tilgjengeliggjøring av et korpus av dette omfanget vil ha stor samfunnsmessig ny tteverdi. Et stort, annotert norsk tekstkorpus av avgjørende betydning for språkteknologisk næringsvirksomhet. Det finnes per i dag ikke noe tekstkorpus som oppfyller kravene til en norsk språkbank, hvor man opererer med et minimumskrav på 100 millioner o rd og en ønsket størrelse på i overkant av 200 millioner ord for hver av målformene. Norsk aviskorpus vil derfor også være et viktig bidrag til en fremtidig norsk språkbank, hvor aviskorpuset tenkes å inngå.

Budsjettformål:

TU-Tungt utstyr