Tilbake til søkeresultatene

FRINATEK-Fri prosj.st. mat.,naturv.,tek

Dialogue Modelling for Statistical Machine Translation

Alternativ tittel: Dialogmodellering for statistisk maskinoversettelse

Tildelt: kr 3,2 mill.

Prosjektet har undersøkt hvordan man kan forbedre maskinoversettelseteknologi for dialoger. Maskinoversettelse, mest kjent gjennom applikasjoner som Google Translate, innebærer automatisk oversettelse fra ett språk til et annet gjennom dataalgoritmer - for eksempel å oversette fra japansk til norsk eller omvendt. Selv om det riktignok har skjedd store fremskritt de siste tiårene, forblir maskinoversettelseteknologi ofte dårlig på å ta hensyn til den aktuelle konteksten. For å oversette en dialog (f.eks. film teksting fra engelsk til norsk), vil dagens maskinoversettelsessystemer vanligvis ta for seg en setning om gangen og ignorere dialogens sammenheng og struktur. Prosjektet hadde som mål å lage mer "kontekstbevisste" maskinoversettelsessystemer og utvikler nye oversettelsemetoder som dynamisk kan tilpasse sine outputs til dialogens omkringliggende kontekst. Mer spesifikt prøvde vi å demonstrere i dette prosjektet hvordan man automatisk trekker kontekstuelle faktorer ut fra dialoger og integrere disse faktorene i et statistisk drevet maskinoversettelsesystem. Hovedmålet med prosjektet var å vise at denne tilnærming er i stand til å produsere oversettelser av en høyere kvalitet enn ved å benytte seg av standard metoder. Spesielt undersøkte prosjektet hvordan disse nye oversettingsmetodene praktisk kan tas i bruk for å produsere høy-kvalitets oversettelser av teksting for film. Så langt har prosjektet hovedsakelig fokusert på to bestemte aspekter. Det første aspektet vedrører bruk av nye statistiske modeller for å dynamisk tilpasse oversettelser til konteksten i både kilde- og målspråk. Det andre aspektet konsentrerer seg om oppsamling og forbehandling av dialogdata i flere språk. Sammen med andre kollegaer har vi lansert en utvidet og forbedret version av korpuset "OpenSubtitles", en stor samling av rundt 3.7 millioner sammenkoblede undertekster av filmer og TV-serier i 60 språk. I en rekke forskningsartikler har vi vist hvordan disse undertekster kan brukes for å utvikle samtalemodeller. Selv om prosjektet utførte eksperimenter med et begrenset antall språk, er datateknikkene som utvikles gje nnom prosjektet ment å være språkuavhengige, og kan derfor i prinsippet brukes på ulike språkpar. På lengre sikt er tale-til-tale tolkning (dvs. oppgaven med å automatisk oversette tale fra ett språk til et annet, i sanntid) en annet mulig anvendelsesområ de for prosjektet.

The main practical outcome of the project was the release of the OpenSubtitles 2016 and OpenSubtitles 2016 datasets, which are (to the best of our knowledge) the world-largest collections of parallel corpora available in the public domain. These datasets are widely used in machine translation, especially for languages that otherwise lack sufficient language resources. In addition to machine translation, the datasets have also been used for other important NLP tasks such as language modelling, conversation modelling, and cross-lingual NLP research. As an indicator of the popularity of the datasets, our 2016 paper that describes the dataset has already received over 100 citations (based on Google Scholar) in the space of two years. The OpenDial toolkit, which was released at the beginning of 2014 and is used to quickly develop spoken dialogue systems, has also gained some popularity in the field, and has been employed for both teaching and research purposes in several countries.

The project sets out to enhance the quality of statistical machine translation technology through a better account of the translation context. In most current approaches to machine translation, documents are usually reduced to collections of isolated sen tences without overarching structure. This assumption unfortunately ignores the vast amount of linguistic information that is expressed at the cross-sentential level. To remedy this shortcoming, researchers have recently started to pay more consideration to the contextual aspects of machine translation. Most work so far has however focused on textual domains such as news articles and legal documents, while conversational domains have been neglected. The proposed project aims to fill this gap and will i nvestigate how to optimise machine translation techniques for conversational domains. In particular, the project will develop new, adaptive translation methods that can dynamically modulate their outputs according to the surrounding dialogue context. In a dialogue, the contributions of the participants are indeed not isolated utterances but are built upon one another in tight sequence. The objective of the project is to provide an explicit account of these dependencies and demonstrate how to exploit them in order to produce more accurate and contextually relevant translations. To this end, the project will develop a range of new dialogue modelling techniques that allow rich contextual knowledge to be extracted from the dialogue history and integrated in the pipeline of a statistical machine translation architecture. To date, few researchers have studied these dialogue aspects of machine translation, thereby giving to the project a highly innovative character. In addition to its scientific value, the pr oposed project also has broad technological relevance for several key sectors of the language industry such as the translation of subtitles for audiovisual content and real-time speech-to-speech interpretation.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

FRINATEK-Fri prosj.st. mat.,naturv.,tek