De siste årene har vi sett en økning i smarte enheter, som telefoner, klokker og høyttalere, som vi bruker regelmessig. Den mest naturlige måten å samhandle med disse enhetene på er gjennom naturlig tale. Som en konsekvens har taleteknologi, som muliggjør denne samhandlingen, en stadig økende innvirkning på hverdagen vår. Den forenkler mange oppgaver for folk flest, men gjør også noen av oppgavene tilgjengelige for mennesker som ellers ville blitt utelukket på grunn av funksjonshemminger. Likevel er dagens teknologi i mange virkelige situasjoner ikke tilstrekkelig avansert til å være virkelig nyttig. Problemer som spontan, konversasjonsmessig tale; bakgrunnsstøy og overlappende tale er blant situasjonene der vi fortsatt ikke har tilfredsstillende ytelse med dagens taleteknologi. Dessuten fungerer kommersielle løsninger vanligvis ikke like bra for små språk som norsk som de gjør for engelsk og andre språk som snakkes av større befolkninger.
SCRIBEs mål er å forbedre taleteknologien på norsk ved å utvikle et tale-til-tekst-transkripsjonssystem for flerpartssamtaler under realistiske opptaksforhold. For å oppnå prosjektmålet er det behov for forskning og teknologiutvikling utover det nyeste innen flere nøkkelområder. Disse inkluderer språklige universelle problemstillinger, samt problemstillinger spesifikt knyttet til det norske språket. Vi vil utvikle modeller som er robuste mot uflyt som er typisk i spontan samtale, som kan håndtere turtaking og dra nytte av konteksten i dialogen. Modellene vil også støtte bruken av talte dialekter og forskjellige ortografier (bokmål, nynorsk eller dialektspesifikk). Vårt mål er at disse fremskrittene vil gjøre det mulig for taleteknologi å nå sitt potensial i norsk, og ha en gunstig innvirkning på det norske samfunnet.
I løpet av de siste årene har SCRIBE-prosjektet bidratt til følgende resultater: i) betydelige datainnsamlinger og annoteringer som er essensielle for taleforskning for det norske språket, selv utenfor prosjektets omfang; ii) støtte til utvikling av toppmoderne talegjenkjenningssystemer basert på tilpasning av tilgjengelige generelle modeller for talerepresentasjon trent på store mengder (flerspråklig) tale; iii) utvikling av nye semantiske evalueringsmålinger for kvaliteten på automatiske transkripsjoner som stemmer bedre overens med menneskelig vurdering enn dagens målinger som behandler alle transkripsjonsfeil som like viktige; iv) analyse av automatiske talegjenkjenningssystemer med hensyn til norske dialekter og v) studier av menneskelig oppfatning av norske dialekter; vi) formidling gjennom organisering av workshops og spesielle sesjoner på internasjonale konferanser. Videre har SCRIBE, i samarbeid med relaterte prosjekter, bidratt til utviklingen av talegjenkjenning og uttalevurdering for barns tale og innsamlingen av et unikt korpus av barns tale på norsk for første og andre språk.
SCRIBE will develop a Norwegian speech-to-text transcription system capable of transcribing multi-party conversations. Speech technology has demonstrated a remarkable progress over the last decade, much due to the evolution of deep learning combined with the availability of massive amounts of speech and language data and high-performance computational resources. Although the amount of language data required for developing high performance speech technology is similar for all languages, irrespective of the number of speakers, products and services have become available that enable spoken communication with computers, even for smaller languages, like Norwegian. Examples include devices like Google Home, services like Siri and Google Voice Search, and voice command and dictation capabilities in recent versions of Windows and OS X.
Yet, for many real-life situations, current technology is not sufficiently advanced to be really useful. Issues like spontaneous, conversational speech; ambient noise and overlapping speech are among the situations where we still do not have satisfactory performance of current speech technology. For Norwegian, existing speech corpora are moderate in size compared to other languages, and mainly contain read and non-conversational speech. Matters are complicated further by large variations in dialects. The problem is that these “phenomena” occur in a variety of situations where automated solutions would be of great use.
The system we will develop in SCRIBE will fill the gap in current speech recognition systems for Norwegian. It will be robust to disfluencies that are typical of spontaneous conversational speech, and will support the spoken and written dialectal variation of the Norwegian Language. It will also be assessed on metrics that are more closely related to the semantic content of the transcription, rather than on the number of misrecognized words.