Back to search

NAERINGSPH-Nærings-phd

Geospatial data management in the future

Alternative title: Håndtering av romlige datasett i fremtiden

Awarded: NOK 1.6 mill.

Ever since we started exploring the world, information about where things are and how to get there has been valuable and sought-after. The hand-drawn, and later printed, map provided an efficient mechanism for storing and communicating this information. While the digital revolution did not render maps outdated, it changed the landscape. At the core of this revolution lies two important changes to how we think about maps. First, the digital revolution established a clear boundary between the physical map and map data. While a printed map traditionally was the only representation of map data, it is now one of many representations. Digital map data, or geospatial data, is a core component in search engines, navigational services, and recommendation engines, and is extensively used in planning processes, urban development, retail, and real estate. Second, the digital revolution democratized the map. Surveying and cartography used to be complex and labour-intensive tasks, and the state usually took the role as a provider and maintainer of maps. While the state still values, produces, and maintains maps, this monopoly is a relic of the past. Private corporations provide a plethora of maps and location-based services and numerous businesses provide value-added services on top of governmental, private, and even personal map data. The rise of crowdsourced encyclopaedias paved the way for the crowdsourced map, where volunteers contribute their time and skills to map the world. Thus, geospatial data, which used to be scarce, is now ubiquitous and plentiful. How do we process, store, and manage such vast amounts of data? And how do we deal with issues of privacy, accuracy, and accountability? These challenges are the starting point of this thesis. We describe how an event-based pipeline for geospatial vector data management can be created and present a solid foundation for implementation. Event sourcing is a computer science principle which focuses on storing events as opposed to storing results of events. A common example is a bank ledger, where debits and credits are tracked, not the current balance. In contrast, geospatial datasets are usually released ?in bulk?, that is that at regular intervals a snapshot of the data, depicting the current state, is released. This is akin to keeping track of a bank ledger current balance. The event-based pipeline for geospatial vector data management presented in the thesis covers several components that are needed to create a pipeline that converts bulk-released geospatial datasets into an event-sourced format. In order to accomplish this, we need a way to express changes to geospatial vector data. This is known in the field of computer science as a diff. Several algorithms for creating diffs exists, but none for geospatial data. This led to the creation of GeomDiff, a diffing algorithm and storage format for geospatial data that takes advantage of the mathematical properties of vector data. This algorithm shows promising results. Another important aspect is how to use geospatial data from an event sourced pipeline. One common approach is to store the latest version of a dataset as a snapshot and lets us utilize traditional storage mechanisms such as spatial databases. This in turn means that the existing ecosystem of applications can be used. However, storing heterogenous geospatial data with differing schemas in a relational database requires some consideration. One option is a schema-less NoSQL database. However, we found that using a simple pre-processing step a traditional database layout can be utilized. This solution also offers faster query times and requires less storage space. Data conflation, the process of merging data covering the same area, mapping the same features, from surveys carried out by separate entities, is another challenge. Often, the best map data is a combination of data from several sources. In these cases, some degree of human oversight is often required. We conducted and online experiment, simulating how a quality control process based on micro-tasking could be carried out. The gist of this method is to divide a task into small sub-tasks, that are digitally distributed to a pool of human ?workers?. Our experiment found this method suitable for such a task, and we found that with proper preparation and training materials, the workers was not required to have prior experience working with such tasks. Thus, event sourcing, combined with micro-tasking, is a viable and effective solution to many of the problems related to managing a large amount of heterogenous spatial datasets. By leveraging the services available through a public cloud provider, a scalable, resilient, and performant solution can be created. In this thesis I have shown how these concepts can be applied, contributed research on geospatial vector data diffing, and presented an overall architecture for an event-based pipeline for geospatial vector data management.

Prosjektets bakgrunn og mål er forankret i Norkarts sine strategisk viktige målsettinger. Dette målet har i stor grad blitt oppfylt gjennom prosjektet, da bedriften både har fått tilført kunnskap gjennom prosjektet og får nytte av kompetansen kandidaten har tilegnet seg gjennom prosjektet i fremtiden. I tillegg har selve avhandlingen direkte nytteverdi for bedriften, da denne skisserer hvordan et system for hendelsesbasert prosessering og behandling av store geografiske datamengder kan prosesseres, lagres og utnyttes. Ut over dette har kandidaten publisert fire fagfellevurderte artikler, som kommer forskingsfeltet til gode, ved at resultatene og funnene er tilgjengeliggjort for videre forskning. Mye av kildekoden som er produsert under prosjektet er også publisert under en åpen programvarelisens. Kandidaten selv har tilegnet seg mye ny kunnskap og kompetanse gjennom prosjektet.

Norkart har identifisert et økende behov for kompetanse og innovasjon på funksjonalitet og infrastruktur for å samle inn, strukturere, georeferere, distribuere og gjøre større, komplekse analyser på alle typer data som har et geografisk element. Litteraturen peker på at dette innbefatter over 80% av all data som blir produsert. Mengden tilgjengelig data vokser eksponentielt og i takt med bruken av digitale trender og teknologier som «Internet of Things», «Government transparency» og datadrevet beslutningsstøtte / «Big Data». Tilgjengelige datakilder øker tilsvarende kraftig - spesielt med veksten av åpne data, hvor vi ser data blir tilgjengelig fra både autoritære kilder som det offentlige, og ikke-autoritære kilder som OpenSource/crowdsourcing data-prosjekter. Der geografiske datasett tidligere hadde fast struktur, gitte oppdateringsintervaller og en begrenset brukermasse har trenden beveget seg mot en virkelighet der data har varierende kvalitet og struktur og oppdateres i nærmest sanntid. Det er svært naturlig å se for seg at fremtidens utvikling i fagområdet vil følge de samme trendene vi ser i informatikken og datateknikken. Disse trendene, kombinert med agendaer som «Digitalt førstevalg» og fokuset på komplett digitalisering og effektivisering av offentlige myndigheter, gjør at kompetanse rundt behandling, lagring, sammenstilling, og forståelse data vil bli enda viktigere. Norkart har jobbet med dette i flere år allerede og forvalter i dag en større mengde med datasett som gjennomgår verdiskaping og produksjon for dataleveranser til forsikringsselskaper, meglerhus og kommuner. For å være konkurransedyktige og ledende på dette området, også i fremtiden, er det avgjørende å sørge for nærhet til den nyeste kunnskapen. Dette innebærer implementasjon og videreutvikling av nyeste forskningsresultater, ha gode relasjoner til ledende tekniske universitet og kompetansesenter, samt være pådriver for å dele kunnskap tilbake til det akademiske miljøet.

Funding scheme:

NAERINGSPH-Nærings-phd