Tilbake til søkeresultatene

IKTPLUSS-IKT og digital innovasjon

Atomic Units for Language Universal representation of Speech

Alternativ tittel: Atomiske enheter for universell representasjon av tale

Tildelt: kr 8,4 mill.

Hva er "atomene" som utgjør de grunnleggende byggesteinene i tale? Alle mennesker er utstyrt med den samme fysiologiske apparaturen for å produsere tale, uansett hvilket språk vi snakker. Dagens automatiske talegjenkjennere tar utgangspunkt i et ovenfra-og-ned hierarki, der det øverste nivået er en setning eller frase. En setning er sammensatt av ord, og ordene er sammensatt av fonemer, som er den minste meningsskillende lingvistiske enheten i et språk. Enhetene antas å opptre som perler på en snor, slik at en setning kan dekomponeres til en sekvens av ikke-overlappende fonemer. Tradisjonell talegjenkjenning finner hvilken fonemsekvens som er de mest sannsynlige ut fra den akustiske bølgeformen, og som korresponderer med en lovlig ordsekvens. I dette prosjektet undersøker vi et alternativ til tradisjonell fonembasert talegjenkjenning ved å snu hierarkiet på hodet. Vi foreslår en tilnærming til talegjenkjenning som baserer seg på å detektere trekk som er knyttet til taleproduksjon og artikulasjon, og som dermed er universelle. Deteksjonen danner grunnlaget for maskinlæring av grunnleggende mønstre, "atomene", som all tale kan bygges opp av, fra begrensede mengder taledata. Dette settet av grunnleggende enheter skal gi oss muligheten til å finne broen mellom det svært variable akustiske talesignalet og faste, meningsfulle symboler, og dermed en mer robust og pålitelig talegjenkjenning. I prosjektets startfase tok vi utgangspunkt i vårt eksisterende system som estimerer sannsynligheten for at gitte fonetiske trekk er aktive i et talesegment, såkalt "myk" deteksjon. Med dette som utgangspunkt har vi utviklet to metoder for å finne akustiske enheter som kan danne basis for talegjenkjenning. Den ene metoden finner enheter som er lingvistisk basert (dvs. fonemliknende enheter), mens den andre metoden finner enheter som kun er definert fra sine akustiske egenskaper. Vi har trent statistiske modeller for begge metodene. Resultater fra forsøk med fonemgjenkjenning viser at de nye enhetene gir omtrent samme nøyaktighet som tradisjonelle enheter for denne oppgaven. Dype nevronett (DNN) har de siste par årene hatt et gjennombrudd som hjelpemiddel for en rekke anvendelser innen prediksjon og mønstergjenkjenning. Talegjenkjenning er en av disse anvendelsene. Vi vil benytte denne metodikken til flere oppgaver i prosjektet. Vi har undersøkt ytelsen til DNN-baserte fonemgjenkjennere på sammenlignbare norske og amerikansk-engelske data, primært for å vurdere om det er betydelig forskjell i vanskelighetsgrad for grunnleggende talegjenkjenning for de to språkene. Resultatene viser at det gjennomgående er noe vanskeligere å oppnå god fonemgjenkjenning for norsk enn for engelsk. Videre undersøkelser, der fonemgjenkjenningen bygger på DNN-basert deteksjon av fonetiske trekk viser imidlertid at denne innfallsvinkelen ikke gir vesentlig forskjell på de to språkene. Ulike DNN-arkitekturer har forskjellige egenskaper. Vi har undersøkt ytelsen til noen sentrale DNN-arkitekturer for en taleklassifiserings-oppgave, der vi har benyttet en liten og kontrollert database. Resultatene indikerer at for denne oppgaven gir en enkel, foroverkoplet arkitektur bedre nøyaktighet enn mer komplekse arkitekturer. Inkludering av kontekst ved å la input være en sekvens som er sentrert rundt segmentet som skal klassifiseres gir en signifikant forbedring i forhold til å bare å la segmentet som skal klassifiseres utgjøre input. Variasjon i talehastighet medfører endring i realiseringen av språklydene. Vi har gjennomført en studie av betydningen av denne variasjonen for klassifisering av korte talesegmenter, og av hvilken representasjon av informasjonsinnholdet i et talesegment som er mest robust mot hastighetsvariasjoner. I vårt opprinnelige system ble fonetiske trekk som indikerer hvordan språklydene skapes estimert ut fra en tradisjonell spektral representasjon av informasjonsinnholdet i tale. Dette er ikke nødvendigvis optimalt. Dersom vi kan representere hvordan de viktigste artikulatorene (tunge, lepper osv.) faktisk beveger seg vil vi ha et mer realistisk bilde av hvordan språklydene faktisk genereres. Vi har utviklet nye metoder for akustisk-artikulatorisk inversjon, dvs. estimering av artikulatorbevegelsene fra selve det akustiske talesignalet som gir forbedret nøyaktighet og robusthet. Fysiologiske ulikheter gjør at sammenhengen mellom det akustiske talesignalet og en romlig beskrivelse av artikulatorenes bevegelser er talerspesifikk. Vår nye metodikk kan foreta prediksjon av artikulatorbevegelsene, uten å ha treningsdata fra eller annen informasjon om taleren, som gir tilnærmet like stor nøyaktighet som talerspesifikke system. I tillegg viser systemene stor robusthet mot ulike former og nivåer av omgivelsesstøy, noe som er svært lovende for bruk av artikulatorisk informasjon i praktiske taleteknologiske anvendelser.

Resultatene, spesielt innenfor metoder og bruk av akustisk-artikulatorisk inversjon (AAI), har bidratt til å skape ny kunnskap på den internasjonale forskningsarenaen. AAI er en variant av en større klasse av inversjonsproblemer, og det metoder utviklet i prosjektet vil kunne utnyttes i andre andre anvendelsesområder. Prosjektresultater vil bli utnyttet i videre forskningsarbeid på NTNU og hos våre samarbeidspartnere. To stipendiater er i ferd med å fullføre sine PhD-grader. Arbeidet i prosjektets postdoc-stilling har vært medvirkende til fast ansettelse i vitenskapelig stilling ved NTNU Gjøvik. Samarbeid med prof. Siniscalchi (Univ. Enna, Italia) er styrket og formaliseres nå ved at prof. Siniscalchi ble tilsatt i prof II-stilling ved Institutt for elektroniske systemer, NTNU, høsten 2020.

Traditional speech recognition systems are based on a top-down approach where the sub-word units are pre-defined, usually on the basis of linguistic theory. In order to build robust statistical models of these units, massive amounts of data is required. Yet, this approach is sensitive to mismatch between the imposed model and real-world data at all levels. The recognition problem is framed as finding the most likely sequence of units that match a legal sequence of words, as defined by the lexicon and the language model. Instead of relying on top-down decoding, we propose a paradigm based on bottom-up detection and information extraction. Instead of learning statistical models of pre-defined units, we aim at developing an approach to ASR that is based on learning the 'optimal' set of units that can be used to map from variable acoustic data to invariable meaningful symbols in a bottom-up information extraction procedure. These units must capture the structure in the speech signals that are imposed by the constraints of the articulatory system, i.e., the structure that encodes the linguistic information. At the same time, the units must be flexible and adaptive, so that they can be used for understanding unknown speakers in arbitrary acoustic backgrounds. Last but not least, it must be possible to learn the units from limited amounts of annotated speech. The core paradigm will be investigated through exploring and verifying five supporting hypotheses: - The salient information of the speech signal can be represented by detecting a small number of acoustic-phonetic events. - The set of sub-word units can be discovered from the detected events by machine learning approaches. - The relationship between sub-word units and linguistic units can be learnt from (possibly labeled) data. - The dependence of language and speaker on the sub-word units will be explored through employing them for automatic language identification and for speaker recognition.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon