Tilbake til søkeresultatene

BIA-Brukerstyrt innovasjonsarena

ANGAS: Audibility for all by NGA utilizing sensor fusion

Alternativ tittel: ANGAS: Hørbarhet for alle med NGA og sensorfusjon

Tildelt: kr 13,4 mill.

Next Generation Audio (NGA) er en ny tilnærming til formidling av lydinnhold -- det være seg radio og tv, podcast eller nettbasert medieinnhold -- som er mer tilgjengelig, interaktiv, personifiserbar og omsluttende (?immersive?) for lytterne. I spissen for initiativet står den europeiske kringkastingsunionen (EBU) og samarbeidspartnere som BBC og IRT. Utfordringen er at det kreves avanserte verktøy, lydutstyr og ekspertise for å skape NGA-innhold. Gjennom dette forskningsprosjektet vil vi bygge en løsning som drastisk forenkler denne prosessen. Vi legger til rette for demokratisering av innholdsproduksjon og sikrer at nytt medieinnhold er tilgjengelig for alle uansett funksjonsevne. Hovedmålet for prosjektet er å utvikle en integrert maskin-/programvareløsning som gjør det mulig å skape rikt, objekt-basert 3D lydinnhold med støtte for personalisering og tilgjengelighet, i overensstemmelse med retningslinjene for NGA. Nomono vil bruke resultatene fra prosjektet til å utvikle et opptakssystem som både er i stand til å fange opp objekt-basert lydinnhold og til å optimalisere innholdet med tanke på taletydelighet, transkripsjon og omsluttende, 360-graders lytteopplevelser. Prosjektet blir gjennomført sammen med forskningspartner SINTEF Digital og NRKs divisjoner for Teknologi, produkt og produksjon (produktutvikling audio) og Strategi og medier (tilgjengelighet). Innledende forskningsfunn har avdekket at de foreslåtte metodene for støyfjerning og signalforbedring har oppfylt eller overgått ytelsen til teknologier som i dag regnes som industristandard. I tillegg kan våre mikrofon-baserte metoder for automatisert posisjonering av mobile lydobjekter dra nytte av ekstra sensorer for å gi informasjon om retning og posisjon. Presise posisjonsdata har umiddelbar verdi for 3D-posisjonering av lyder i et omsluttende lydfelt, men kan også muliggjøre mer finstemte teknikker for reduksjon av støy og krysstale gjennom datadrevet kartlegging av lydkildene i en gitt opptakssituasjon. I løpet av det først prosjekt-året har Nomono utviklet en prosesserings-kjede for forbedring av tale. Denne gir ytelse på et nivå som gjør at den vil inngå vårt første produkt som blir kommersielt tilgjengelig tidlig i 2022 når vi lanserer vår sky-tjeneste. Denne prosesserings-kjeden vil integreres med HW som kommer seinere i 2022. Deling av kode via Github er blitt den viktigste publiseringskanalen for maskinlæringsmiljøet. Nomono støtter dette ved å dele et utvalg av teknologien vår med open source-miljøet. Flere av publikasjonene våre i 2021 er derfor på denne plattformen, spesielt vår egen https://github.com/iver56/audiomentations/ som har 784 stjerner og er lagt inn som avhengighet i 89 andre repositorier.

The primary objective of the project is to develop an integrated hardware/software prototype that enables creation of rich, object-based 3D audio content with support for personalization and accessibility, compliant with the guidelines of Next Generation Audio (NGA). The research will focus on AI-driven enhancement of speech audio signals, supported by auditory scene analysis and exploration of sensor fusion technologies. Validation of project results with respect to audio quality, functionality and accessibility for the hearing impaired will be carried out in cooperation with NRK. Nomono will use the project results in the development of a recording system capable of capturing object-based audio content and optimizing the content for speech intelligibility, transcription, and immersive, 360 degree listening experiences. The ultimate goal is to democratize creation of and access to immersive storytelling using audio.

Budsjettformål:

BIA-Brukerstyrt innovasjonsarena