BIA-Brukerstyrt innovasjonsarena

Next Generation Audio (NGA) er en ny tilnærming til formidling av lydinnhold -- det være seg radio og tv, podcast eller nettbasert medieinnhold -- som er mer tilgjengelig, interaktiv, personifiserbar og omsluttende (?immersive?) for lytterne. I spissen for initiativet står den europeiske kringkastingsunionen (EBU) og samarbeidspartnere som BBC og IRT. Utfordringen er at det kreves avanserte verktøy, lydutstyr og ekspertise for å skape NGA-innhold. Gjennom dette forskningsprosjektet vil vi bygge en løsning som drastisk forenkler denne prosessen. Vi legger til rette for demokratisering av innholdsproduksjon og sikrer at nytt medieinnhold er tilgjengelig for alle uansett funksjonsevne. Hovedmålet for prosjektet er å utvikle en integrert maskin-/programvareløsning som gjør det mulig å skape rikt, objekt-basert 3D lydinnhold med støtte for personalisering og tilgjengelighet, i overensstemmelse med retningslinjene for NGA. Nomono vil bruke resultatene fra prosjektet til å utvikle et opptakssystem som både er i stand til å fange opp objekt-basert lydinnhold og til å optimalisere innholdet med tanke på taletydelighet, transkripsjon og omsluttende, 360-graders lytteopplevelser. Prosjektet blir gjennomført sammen med forskningspartner SINTEF Digital og NRKs divisjoner for Teknologi, produkt og produksjon (produktutvikling audio) og Strategi og medier (tilgjengelighet). Innledende forskningsfunn har avdekket at de foreslåtte metodene for støyfjerning og signalforbedring har oppfylt eller overgått ytelsen til teknologier som i dag regnes som industristandard. I tillegg kan våre mikrofon-baserte metoder for automatisert posisjonering av mobile lydobjekter dra nytte av ekstra sensorer for å gi informasjon om retning og posisjon. Presise posisjonsdata har umiddelbar verdi for 3D-posisjonering av lyder i et omsluttende lydfelt, men kan også muliggjøre mer finstemte teknikker for reduksjon av støy og krysstale gjennom datadrevet kartlegging av lydkildene i en gitt opptakssituasjon. I løpet av det først prosjekt-året har Nomono utviklet en prosesserings-kjede for forbedring av tale. Denne gir ytelse på et nivå som gjør at den vil inngå vårt første produkt som blir kommersielt tilgjengelig tidlig i 2022 når vi lanserer vår sky-tjeneste. Denne prosesserings-kjeden vil integreres med HW som kommer seinere i 2022. Deling av kode via Github er blitt den viktigste publiseringskanalen for maskinlæringsmiljøet. Nomono støtter dette ved å dele et utvalg av teknologien vår med open source-miljøet. Flere av publikasjonene våre i 2021 er derfor på denne plattformen, spesielt vår egen https://github.com/iver56/audiomentations/ som har 784 stjerner og er lagt inn som avhengighet i 89 andre repositorier.

The primary objective of the project is to develop an integrated hardware/software prototype that enables creation of rich, object-based 3D audio content with support for personalization and accessibility, compliant with the guidelines of Next Generation Audio (NGA). The research will focus on AI-driven enhancement of speech audio signals, supported by auditory scene analysis and exploration of sensor fusion technologies. Validation of project results with respect to audio quality, functionality and accessibility for the hearing impaired will be carried out in cooperation with NRK. Nomono will use the project results in the development of a recording system capable of capturing object-based audio content and optimizing the content for speech intelligibility, transcription, and immersive, 360 degree listening experiences. The ultimate goal is to democratize creation of and access to immersive storytelling using audio.

Budsjettformål:

BIA-Brukerstyrt innovasjonsarena

9,2MRD. KRtotalt tildelt i programperioden 1172PROSJEKTERhar fått tildeling i programperioden 7KILDERhar finansiert programmet

Finansieringskilder

Nærings- og fiskerid Kunnskapsdepartement Diverse Nærings- og handelsd Olje- og energidepar Samferdselsdeparteme Ukjent

Temaer og emner

Politikk- og forvaltningsområder Digitalisering Anvendt forskning Utviklingsarbeid IKT forskningsområde Kunstig intelligens, maskinlæring og dataanalyse Digitalisering og bruk av IKT Politikk- og forvaltningsområder Politikk- og forvaltningsområder Næring og handel IKT forskningsområde Verifisering, pilotering, demonstrasjon (ny fra 2014)Digitalisering og bruk av IKT Privat sektor Bransjer og næringer Politikk- og forvaltningsområder Kultur, kirke, idrett og medier Portefølje Velferd og utdanning IKT forskningsområde Kommunikasjonsteknologi Tjenesterettet FoU Bransjer og næringer IKT-næringen LTP3 IKT og digital transformasjon LTP3 Uttesting og kommersialisering av FoU Medier og kommunikasjon LTP3 Styrket konkurransekraft og innovasjonsevne LTP3 Tillit og fellesskap Portefølje Innovasjon LTP3 Kultur, sivilsamfunn og medienes rolle LTP3 Muliggjørende og industrielle teknologier Portefølje Muliggjørende teknologier LTP3 Et kunnskapsintensivt næringsliv i hele landet

BIA-Brukerstyrt innovasjonsarena

ANGAS: Audibility for all by NGA utilizing sensor fusion

Alternativ tittel: ANGAS: Hørbarhet for alle med NGA og sensorfusjon

Tildelt: kr 13,4 mill.

Populærvitenskapelig framstilling

Sammendrag

Budsjettformål:

BIA-Brukerstyrt innovasjonsarena

Finansieringskilder

Temaer og emner