Tilbake til søkeresultatene

P-SAMISK-Program for samisk forskning

Maskinoversetting mellom samiske språk

Tildelt: kr 3,6 mill.

Språksamfunn med få talere trenger de samme grunnleggende tekstene som store språksamfunn: Barna trenger barnebøker, godnatthistorier og skolebøker, og offentlige institusjoner må informere innbyggerne sine om ulike tiltak og pålegg. I en slik situasjon blir tilgangen til oversettere en flaskehals. I det samiske språksamfunnene i Norden snakker anslagsvis over 85% av de samiskspråklige nordsamisk, mens de 4 andre offisielle samiske språkene deler på resten av de samiskspråklige talerne. Målet med prosjektet er å utnytte nordsamisk som et relé-språk, der tekst originalt skrevet på nordsamisk, eller manuelt oversatt fra majoritetsspråk til nordsamisk, blir maskinelt oversatt til de andre samiske språkene. I steden for å oversette direkte fra majoritetsspråket til de små samiske språkene, blir arbeidet redusert til å korrekturlese den maskinoversatte teksten. Dette er mulig fordi de samiske språkene har lik grammatikk, men ulik rettskriving og terminologi. Dette prosjektet konsentrerer seg om ett språkpar, nordsamisk til enaresamisk, men erfaringer høstet i dette programmet vil gjøre det mulig å bygge tilsvarende verktøy også for andre språk, og også for andre språkpar. Prosjektet vil også danne grunnlaget for enaresamisk språkteknologi, og dermed for en ny epoke innafor enaresamisk språkforsking.

Målet med prosjektet er å lage fungerende program for maskinoversetting fra nordsamisk til andre samiske språk. Ved å oversette fra nordsamisk til andre samiske språk vil hele det samiske språksamfunnet kunne dra nytte av det arbeidet som blir gjort for n ordsamisk. Tekstproduksjon vil bli mulig i en langt større skala enn i dag, f.eks. vil prosessen med å lage skolebøker i alle fag for alle klassetrinn kunne gjøres langt mer effektiv med et maskinoversatt forelegg fra nordsamisk til f.eks. sørsamisk. Pro sjektet vil også gi ny innsikt i samisk komparativ syntaks og ordforråd. Maskinoversetting er i dag dominert av statistiske modeller (SMT). For samiske språk og andre små språk er dette alternativet ikke mulig. Prosjektet vil derfor bruke lingvistisk bas ert maskinoversetting (RBMT), bygge videre på arbeid gjort i Tromsø i den siste femårsperioden, og implementere programmene i plattforma Apertium. Etter en første fase med inventering, innhenting av parallelltekst og komplettering av transferleksikon, vi l brorparten av prosjektperioden gå med til komparativ syntaktisk analyse og studier av leksikalsk disambiguering. Vi ser maskinoversetting mellom nært beslekta minoritetsspråk som en del av det språklige revitaliseringsarbeidet, og dette prosjektet er d ermed også relevant for andre minoritetsspråksfamilier.

Budsjettformål:

P-SAMISK-Program for samisk forskning