Back to search

P-SAMISK-Program for samisk forskning

Maskinoversetting mellom samiske språk

Awarded: NOK 3.6 mill.

Language communities with few speakers have the same need for basic text material as have major language communities: children need books, bedtime stories and textbooks, and public institutions must inform its citizens about different issues. In such a situation, access to translators is a bottleneck. Within the Sami language communities in the Nordic countries over 85% of the Sami spealers speak Northern Sami, while the four other official Sami languages share the rest of the speakers. The present project aims at using North Sami as a pivot language, where text originally written in Northern Sami, or manually translated from the majority language to Northern Sami, are machine translated into the other Sami languages. Instead of translating directly from the majority language of the small Sami languages, the work is now reduced to proofreading the machine translated text. This is possible because the Sami languages ??have similar grammar but different spelling and terminology. The main focus is on one language pair, North Sami to Inari Sami, but the project also resulted in translation programs from North Sami to South and Lule Sami. The project will also form the basis for Inari Sami language technology and thus for a new era of Inari Sami language research.

Målet med prosjektet er å lage fungerende program for maskinoversetting fra nordsamisk til andre samiske språk. Ved å oversette fra nordsamisk til andre samiske språk vil hele det samiske språksamfunnet kunne dra nytte av det arbeidet som blir gjort for n ordsamisk. Tekstproduksjon vil bli mulig i en langt større skala enn i dag, f.eks. vil prosessen med å lage skolebøker i alle fag for alle klassetrinn kunne gjøres langt mer effektiv med et maskinoversatt forelegg fra nordsamisk til f.eks. sørsamisk. Pro sjektet vil også gi ny innsikt i samisk komparativ syntaks og ordforråd. Maskinoversetting er i dag dominert av statistiske modeller (SMT). For samiske språk og andre små språk er dette alternativet ikke mulig. Prosjektet vil derfor bruke lingvistisk bas ert maskinoversetting (RBMT), bygge videre på arbeid gjort i Tromsø i den siste femårsperioden, og implementere programmene i plattforma Apertium. Etter en første fase med inventering, innhenting av parallelltekst og komplettering av transferleksikon, vi l brorparten av prosjektperioden gå med til komparativ syntaktisk analyse og studier av leksikalsk disambiguering. Vi ser maskinoversetting mellom nært beslekta minoritetsspråk som en del av det språklige revitaliseringsarbeidet, og dette prosjektet er d ermed også relevant for andre minoritetsspråksfamilier.

Funding scheme:

P-SAMISK-Program for samisk forskning