Tilbake til søkeresultatene

NAERINGSPH-Nærings-phd

Geospatial data management in the future

Alternativ tittel: Håndtering av romlige datasett i fremtiden

Tildelt: kr 1,6 mill.

Helt siden vi begynte å utforske verden har informasjon om hvor ting er og hvordan man kommer dit vært verdifullt og ettertraktet. Det håndtegnede og senere utskrevne kartet var effektiv mekanisme for lagring og formidling av stedsinformasjon. Den digitale revolusjonen gjorde ikke kart utdatert, men den endret det landskapet. Kjernen i denne revolusjonen ligger to viktige endringer i hvordan vi tenker på kart. For det første etablerte den digitale revolusjonen en klar grense mellom det fysiske kartet og kartdataene. Et papirkart var tradisjonelt den eneste representasjonen av kartdata, er det nå en av mange. Digitale kartdata er en kjernekomponent i søkemotorer, navigasjonstjenester og anbefalingsmotorer, og brukes mye i planleggingsprosesser, byutvikling, detaljhandel og eiendom. For det andre demokratiserte den digitale revolusjonen kartet. Kartlegging og kartografi pleide å være komplekse og arbeidskrevende oppgaver, og staten tok vanligvis rollen som leverandør og forvalter av kart. Staten produserer og vedlikeholder fremdeles kart, men monopolet en levning fra fortiden. Private selskaper tilbyr en mengde kart og stedsbaserte tjenester, og mange bedrifter tilbyr merverditjenester på toppen av offentlige, private og til og med personlige kartdata. Fremveksten av dugnadsbaserte leksikon banet vei for det dugnadsbaserte kartet, der frivillige bidrar med sin tid og ferdigheter til å kartlegge verden. Dermed er romlige data, som tidligere var en knapp ressurs, nå allestedsnærværende. Hvordan behandler, lagrer og håndterer vi så store datamengder? Og hvordan håndterer vi spørsmål om personvern, nøyaktighet og ansvarlighet? Disse utfordringene er utgangspunktet for denne oppgaven. Vi beskriver hvordan en hendelsesbasert prosesseringsløype for behandling av geografiske vektordata kan implementeres og presenterer et solid grunnlag for implementering. Denne løypa vil muliggjøre effektiv oppdatering og versjonering av åpne romlige datasett og gi tilgang til både nåværende og historiske data, samtidig som det muliggjør et lagringsoppsett som er i stand til å skalere horisontalt. «Event-sourcing» er et prinsipp fra datavitenskapen som fokuserer på å lagre hendelser i motsetning til å lagre resultatene av hendelse. Et eksempel er en hovedbok der debet og kreditter spores, ikke den nåværende saldoen. I kontrast frigjøres vanligvis romlige datasett "i bulk", det vil si at med jevne mellomrom frigjøres et øyeblikksbilde av dataene som viser den nåværende tilstanden. Dette ligner på å holde oversikt over en gjeldsbalanse. Den hendelsesbaserte prosesseringsløypa for behandling av geografiske vektordata som presenteres i oppgaven dekker flere komponenter som er nødvendige for å lage en rørledning som konverterer «bulk»-tilgjengeliggjorte romlige datasett til et hendelsesformat. For å oppnå dette trenger vi en måte å uttrykke endringer i romlige vektordata. Dette er kjent innen informatikk som en «diff». Flere algoritmer for å opprette forskjeller eksisterer, men ingen for romlige data. Dette førte til implementasjonen av GeomDiff, en diffe-algoritme og lagringsformat for romlige data som utnytter de matematiske egenskapene til vektordata. Denne algoritmen viser lovende resultater. Et annet viktig aspekt er hvordan du bruker romlige data fra en hendelses-basert prosesseringsløype. En vanlig tilnærming er å lagre den siste versjonen av et datasett som et øyeblikksbilde og tradisjonelle lagringsmekanismer som romlige databaser. Dette betyr igjen at det eksisterende økosystemet med applikasjoner kan brukes. Dette medfører imidlertid noen problemer. En løsning er å vende seg til en skjemafri NoSQL-database. Vi fant imidlertid at ved bruk av et enkelt forbehandlingstrinn kan et tradisjonelt databaselayout brukes. Denne løsningen gir også raskere spørretider og krever mindre lagringsplass. Ofte er de beste kartdataene en kombinasjon av data fra flere kilder. I disse tilfellene kreves det ofte en viss grad av menneskelig tilsyn. Vi gjennomførte et web-basert eksperiment, og simulerte hvordan en kvalitetskontrollprosess kunne utføres ved bruk av «micro-tasking». Kjernen i denne metoden er å dele en oppgave i små underoppgaver, som blir distribuert digitalt til et utvalg av menneskelige "arbeidere". Eksperimentet vårt fant denne metoden egnet for en slik oppgave, og vi fant at med riktig forberedelse og opplæringsmateriell, ble ikke arbeidstakerne pålagt å ha tidligere erfaring med å jobbe med slike oppgaver. «Event-sourcing», kombinert med «micro-tasking», er en effektiv løsning på mange av problemene knyttet til å håndtere store mengder heterogene romlige datasett. Ved å utnytte «public cloud» datasenter-tjenester, er veien kort til en skalerbar, elastisk og effektiv løsning. I denne oppgaven har jeg vist hvordan disse konseptene kan brukes, bidratt med forskning på heterogene romlige vektordata, og presentert en overordnet arkitektur for en hendelsesbasert prosesseringsløypa for behandling av geografiske vektorda

Prosjektets bakgrunn og mål er forankret i Norkarts sine strategisk viktige målsettinger. Dette målet har i stor grad blitt oppfylt gjennom prosjektet, da bedriften både har fått tilført kunnskap gjennom prosjektet og får nytte av kompetansen kandidaten har tilegnet seg gjennom prosjektet i fremtiden. I tillegg har selve avhandlingen direkte nytteverdi for bedriften, da denne skisserer hvordan et system for hendelsesbasert prosessering og behandling av store geografiske datamengder kan prosesseres, lagres og utnyttes. Ut over dette har kandidaten publisert fire fagfellevurderte artikler, som kommer forskingsfeltet til gode, ved at resultatene og funnene er tilgjengeliggjort for videre forskning. Mye av kildekoden som er produsert under prosjektet er også publisert under en åpen programvarelisens. Kandidaten selv har tilegnet seg mye ny kunnskap og kompetanse gjennom prosjektet.

Norkart har identifisert et økende behov for kompetanse og innovasjon på funksjonalitet og infrastruktur for å samle inn, strukturere, georeferere, distribuere og gjøre større, komplekse analyser på alle typer data som har et geografisk element. Litteraturen peker på at dette innbefatter over 80% av all data som blir produsert. Mengden tilgjengelig data vokser eksponentielt og i takt med bruken av digitale trender og teknologier som «Internet of Things», «Government transparency» og datadrevet beslutningsstøtte / «Big Data». Tilgjengelige datakilder øker tilsvarende kraftig - spesielt med veksten av åpne data, hvor vi ser data blir tilgjengelig fra både autoritære kilder som det offentlige, og ikke-autoritære kilder som OpenSource/crowdsourcing data-prosjekter. Der geografiske datasett tidligere hadde fast struktur, gitte oppdateringsintervaller og en begrenset brukermasse har trenden beveget seg mot en virkelighet der data har varierende kvalitet og struktur og oppdateres i nærmest sanntid. Det er svært naturlig å se for seg at fremtidens utvikling i fagområdet vil følge de samme trendene vi ser i informatikken og datateknikken. Disse trendene, kombinert med agendaer som «Digitalt førstevalg» og fokuset på komplett digitalisering og effektivisering av offentlige myndigheter, gjør at kompetanse rundt behandling, lagring, sammenstilling, og forståelse data vil bli enda viktigere. Norkart har jobbet med dette i flere år allerede og forvalter i dag en større mengde med datasett som gjennomgår verdiskaping og produksjon for dataleveranser til forsikringsselskaper, meglerhus og kommuner. For å være konkurransedyktige og ledende på dette området, også i fremtiden, er det avgjørende å sørge for nærhet til den nyeste kunnskapen. Dette innebærer implementasjon og videreutvikling av nyeste forskningsresultater, ha gode relasjoner til ledende tekniske universitet og kompetansesenter, samt være pådriver for å dele kunnskap tilbake til det akademiske miljøet.

Budsjettformål:

NAERINGSPH-Nærings-phd