Tilbake til søkeresultatene

IKTPLUSS-IKT og digital innovasjon

Knowledge Based Non-Stationary Modeling

Alternativ tittel: Kunnskapsbasert ikkje-stasjonær modellering

Tildelt: kr 9,2 mill.

Utfordring 1: Bruke statistiske modeller til å estimere årlig avrenning. Årlig avrenning er et mål på mengden vann som renner i en elv i løpet av et år. Det er viktig å ha kunnskap om årsavrenning hvis man skal planlegge en ny drikkevannskilde eller bygge et kraftverk. For de fleste elver i verden har man ikke målinger av avrenning fordi det er for dyrt og tidkrevende å måle i hver eneste elv. I slike elver må man avrenningen estimeres. Dette kan gjøres ved å bruke data fra nærliggende elver, nedbørsdata og andre relevante observasjoner. Ofte ønsker man å vite hvor mye vann det gjennomsnittlig er i en elv over tid, for eksempel over en 30 års periode. Dette er et godt mål på hvor mye vann som er tilgjengelig, for eksempel for vannkraftproduksjon. I noen elver finnes det kun 1 - 5 år med målinger når man gjerne skulle hatt 30 år. Det er ikke uvanlig at disse korte måleseriene forkastes når man skal gjøre en analyse. Grunnen er at de blir sett på som for usikre når man skal estimere et gjennomsnitt over 30 år. I dette prosjektet har vi utviklet statistiske metoder som er i stand til å ta i bruk de korte måleseriene på en god måte. Modellene vi har utviklet utnytter samvariasjon mellom elver: To elver som er i nærheten av hverandre har sannsynligvis mer til felles enn to elver som er langt unna hverandre når det kommer til vannføring. Videre tar vi i bruk at avrenningsmønstre repeterer seg over tid. For eksempel regner det i snitt mer i Bergen enn i Oslo, der det igjen regner mer enn i Skjåk, og hvis det er spesielt regnfullt i Oslo et år, er det allikevel mer regn i Bergen. Ved å utnytte disse egenskapene i vår statistiske modell, klarer vi også å utnytte de korte måleseriene. Resultatene våre viser at man kan få betydelige bedre estimater for 30 årsavrenningen i Norge hvis man har kun ett år med målinger, sammenligna med hvis man har 0 målinger. Dette viser at det er mye informasjon som går tapt når man forkaster de korte måleseriene. I arbeidet vårt utforsker vi også hvordan datatyper kan kombineres på nye måter for å få bedre estimater av avrenning. Utfordring 2: Bruke statistiske modeller til å forutse kvantitative trekk (f.eks. høgde til eit menneske) fra slektstre og gendata. Innen kvantitativ genetikk er man interessert i å identifisere gener og områder i DNAet som påvirker ulike fysiske egenskaper. Man er også interessert i å finne ut hvor stor andel av en en fysisk egenskap som skyldes arv, og hvor stor andel som skyldes miljø. Dette er spesielt nyttig for plante- og dyreavlere. Hvis man vet hvor mye av en observert egenskap som skyldes arv og hvor mye som skyldes miljø, kan man velge ut de individene med høyest genetisk potensiale for ønskede egenskaper til videre avl. På denne måten kan man forbedre ønskede egenskaper hos planter og dyr over tid. Man kan for eksempel utvikle nye sorter av hvete som produserer større mengde korn enn i de sortene man har i dag. Med bioteknologi kan man også bruke genetiske markører fra DNAet, til å predikere genetisk potensiale i individer som ennå ikke har utviklet egenskapene man ønsker å forbedre. På den måten kan man ta avgjørelser tidligere i avlsprosessen enn ved tradisjonell avl, uten bruk av genetiske markører. Det er stort sett utfordrende å estimere hvor mye som skyldes arv og hvor mye som skyldes miljø. Til dette brukes forsøk, statistiske modeller og metoder, og forskere jobber stadig med å forbedre metodene sine. Dette prosjektet bidrar med statistiske modeller for å separere arv og miljø, og modeller for genetiske effekter som er i tråd med vår forståelse av genetiske prosesser. Anvendelsene er rettet mot landbruket, og noen av modellene er også relevante for studier av ville dyrepopulasjoner eller arvelige sykdommer hos mennesker. I modellene vi foreslår, ønsker vi å kunne inkludere kunnskap vi har om prosessene vi studerer. Typen kunnskap vi ønsker å inkludere i modellene er både rettet mot miljødelen av modellen og den genetiske delen av modellen. Vi bruker for eksempel kunnskap om avhengighet i miljø mellom nærliggende gårder. For genetikkdelen, inkluderer vi kunnskap om de genetiske markørene - for eksempel at de ligger nærme et kjent gen eller at vi kjenner avhengigheten mellom dem som er oppstått fra mutasjoner gjennom mange generasjoner. Modellene blir tilpasset på både ekte og syntetiske data, og resultatene viser at å inkludere kunnskap om miljø-avhengighet og om genetiske markører, kan gi bedre estimater og prediksjoner av andelen av en egenskap som skyldes arv.

Prosjektet sitt hovudbidrag er nye klassar av metodar for å oppnå gode analyser når ein nyttar ulike datakjelder og å gjere det mogeleg å ta inn kunnskap om avhengighetstrukturar. Dette har mest effekt i seinare bruk av desse metodane, både i forsking og meir direkte som kunnskapsgrunnlag for beslutninger. Eit eksempel på effekt som kan ha stor betydning er bruk av korte tidsserier av avrenning for avrenningskart, som igjen blir brukt i for eksempel planlegging og dimensjonering av infrastruktur. Basert på resultata i prosjektet vurderer no NVE å nytte den utvikla metodikken når dei no utarbeider nye avrenningskart. Eit anna eksempel på verknad er forbetra avl basert på gardsbruk med få dyr, typisk i utviklingsland, basert på genetiske data og romlige strukturar.

The project is based on collaboration between researchers in statistics, quantitative genetics and hydrology. From a statisticians point of view the goal is to develop statistical methods and knowledge for non-stationary processes. We have chosen two important challengers, one in quantitative genetics and one in hydrology. Quantitative genetics challenge: Predict breeding values and identifying quantitative trait loci from SNP-panel data and pedigree information. Hydrology challenge: The problem of ungauged basins, i.e. challenge of estimating streamflow variables for locations where no streamflow observations are available. Formulating models as solutions to stochastic partial differential equation (SPDE) has been demonstrated to enable fast inference as INLA (integrated nested Laplace approximations) can be used. The SPED-formulation also provides a flexible framework for non-stationary models, and we therefore chose to focus on what we call non-stationary latent SPDE models. We first formulate existing useful models as latent SPDE-models. Next these models are extended to non-stationary models using the SPDE formulation. For non-stationary models identifiability challenges have been found. We develop tools, experience and knowledge to tackle these challenges. We further investigate how identifiability of non-stationary parameters can be improved in ways that are realistic from the selected challenges point of view. When non-stationary models are evaluated based on predictive performance, there are seldom substantial improvement observed. We develop methodology for evaluating predictions, and investigate in which settings, realistic and interesting from the selected challenges, predictive performance is improved when using non-stationary models. To make the developed methods available to users, we provide software, documentation and courses as well as journal articles and presentations at conferences. Further, meetings for potential new users are organized.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon