Tilbake til søkeresultatene

HUMDAT-Humanistisk datasenter

Parallelle korpus

Tildelt: kr 4,5 mill.

Prosjektet består av tre delprosjekter, hvorav det tredje (ASK) må ses på som hovedprosjektet: 1. Translation Corpus Aligner (TCA) 2. Talesøk 3. Norsk andrespråkskorpus (ASK) Prosjektet viderefører arbeidet med sammenstilling av korpus som ka n ses på som ulike versjoner av den samme teksten, altså parallellkorpus. Det første delprosjektet er først og fremst metodisk, og har som mål å videreutvikle programvare for automatisk sammenstilling av parallelle korpus. Sammenstilling er en grunnleggen de egenskap ved parallellkorpus, som tillater at enheter i de to korpusene som korresponderer med hverandre, raskt og effektivt kan identifiseres. Talesøk, som er en videreføring av flere prosjekter, er et prosjekt der en gjennom sammenstilling av lydfile r med opptak av tale og transkripsjonen av talen, kan utvikle transkripsjonen til effektive søkeverktøy i forhold til lydfilene, som i all taleforskning må ses på som det egentlige primærmaterialet. Mens TCA og Talesøk først og fremst er metodologiske, ta r Norsk andrespråkskorpus (ASK) sikte på å bygge et korpus over norsken til innvandrere med fremmedspråklig bakgrunn, slik denne er dokumentert i testresultater fra Norsk språktest. Originaltekstene til testtakerne skal sammenstilles med normaliserte vers joner av de samme tekstene. De normaliserte tekstene vil på samme måte som i Talesøk kunne brukes som søkeverktøy i forhold til originaltekstene, som derved vil gjøres effektivt tilgjengelig for forsking på hvordan fremmedspråklige med ulik språkbakgrunn tilegner seg norsk. Det som samler de tre delprosjektene i en større enhet, er som nevnt fokuset på parallellstilling av korpus. Mer spesifikt fokuserer prosjektet på sammenstilling av korpus der en normalisert versjon, som gir grunnlag for høy grad av automatisk koding av strukturell informasjon på alle nivåer i grammatikken, kan brukes som søkeverktøy i forhold til en "råversjon" der denne informasjonen er mye vanskeligere å kode automatisk. Råversjonene i dette tilfellet er for Talesøks vedkommende lydfilene, og for ASKs vedkommende de fremmedspråkliges originaltekster. Ettersom dette i begge tilfeller dreier seg om primære språkdata, er det den informasjonen som ligger i disse som er av primær, lingvistisk interesse. Bruk av normaliserte versjoner på denne måten gir tilgang på strukturell informasjon i dette primærmaterialet. I en større sammenheng vil prosjektet derfor gi oss metoder og innsikt i hvordan denne typen parallellstilling av korpus kan gi oss tilgang til språklige primærdata som tidli gere har vært tungt tilgjengelige, fordi tilgang har vært avhengig av tidkrevende, "manuell" ekserpering. Det må også understrekes at parallelt med den metode- og ressursutviklingen som ligger i prosjektet, vil det foregå forskning knyttet til både Tales øk og ASK.

Budsjettformål:

HUMDAT-Humanistisk datasenter

Finansieringskilder

Temaer og emner

Ingen temaer knyttet til prosjektet