Tilbake til søkeresultatene

STIPINST-Stipendiatstillinger i instituttsektoren

Stipendiatstilling 4 SINTEF (2021-2023)

Tildelt: kr 4,2 mill.

Store mengder data genereres, spesielt med fremveksten av tingenes internett (Internet of Things) teknologier som skaper nye verdiskapingsmuligheter gjennom analyse av stordata (Big Data). Følgelig har stordata-analyse vært en drivende faktor i å revolusjonere store sektorer, som mobiltjenester, finans og vitenskapelig forskning. ?Big Data-pipelines? er sammensatt av flere orkestrerte steg eller aktiviteter som utfører ulike dataanalytiske oppgaver. De er forskjellige fra forretnings- og vitenskapelige arbeidsflyter siden de er dynamiske, behandler heterogene data, og utføres parallelt i stedet for et sekvensielt sett med matematiske operasjoner. Selv om mange organisasjoner anerkjenner betydningen av stordata-analyse, står de fortsatt overfor kritiske utfordringer når de implementerer dataanalyse i prosessen. For det første må flere eksperter, alt fra tekniske til domeneeksperter, være involvert i å spesifisere slike komplekse pipelines. For det andre, gitt det faktum at IoT-, Edge- og Cloud-teknologier konvergerer mot et datakontinuum, må pipeline-steg dynamisk knyttes til heterogene databehandlings- og lagringsressurser for å sikre skalerbarhet. Å tilby en skalerbar, generell løsning for Big Data pipelines som et bredt publikum kan bruke, er et åpent forskningsspørsmål. Utfordringene med å utforme en anvendelig generell løsning kommer fra det faktum at flaskehalser kan oppstå på et enkelt steg i en pipeline - for eksempel når gjennomstrømningen av ett steg er lavere enn de andre. Oppskalering av hele pipelinen adresserer derfor ikke skalerbarhetsproblemene og må gjøres på det enkelte steg. Dette problemet blir verre av det faktum at skalerbarhet må organiseres og orkestreres over heterogene dataressurser. Videre introduserer oppskalering av individuelle steg synkroniseringsproblemer mellom ulike steg som forsøker å behandle samme data samtidig. En annen stor utfordring er å oppnå brukervennlighet for flere interessenter, ettersom de fleste Big Data pipeline-løsninger er fokusert på ad hoc-behandlingsmodeller som kun fagfolk og eksperter kan bruke. Imidlertid bruker organisasjoner vanligvis spesifikke teknologier som ikke nødvendigvis støtte Big Data, og å ansette eksperter på Big Data-teknologi kan være vanskelig og kostnadskrevende. Selv om en organisasjon har nødvendig teknisk personell, krever datapipeline-steg spesifikk domeneavhengig kunnskap, som besittes av domeneekspertene i stedet for data scientist som setter opp datapipelines. Doktorgradsavhandlingen tar sikte på å utvikle tilnærminger og teknikker som vil senke de teknologiske barrierene til å implementere og bruke Big Data pipelines slik at de blir tilgjengelige for et bredere sett av interessenter uavhengig av maskinvareinfrastrukturen. PhD-prosjektet forsker på og utvikler nye metoder for å støtte livssyklusen til Big Data-pipelines, som muliggjør definisjon, modellbasert analyse og optimalisering, simulering og distribusjon på desentraliserte heterogene infrastrukturer som Cloud/Fog/Edge Continuum. For å oppfylle dette målet vil oppgaven lage et nytt domenespesifikt språk (DSL), metoder, rammeverk og programvareprototyper for å administrere Big Data-pipelines slik at Big Data-pipelines enkelt kan settes opp på en måte som er sporbar, håndterbar, analyserbar og optimaliserbar, og vil skille design- fra kjøretidsaspektene ved bruk.

Budsjettformål:

STIPINST-Stipendiatstillinger i instituttsektoren