Tilbake til søkeresultatene

ISPNATTEK-ISP - naturvit. og teknologi

ExiBiDa: Exploring new dimensions in Big Data

Alternativ tittel: ExiBiDa: Utforsking av nye dimensjoner i Big Data

Tildelt: kr 7,2 mill.

En stor andel av "Big data" er tekstlig, og har romlige og tidsmessige dimensjoner. Et godt eksempel er tekster fra sosiale medier, som implisitt eller eksplisitt ofte er knyttet til lokasjonen brukeren hadde da han/hun skrev meldingen, og tidsstempelet for når den ble postet. I ExiBiDa har vi fokusert på utforskende analyse av data som inneholder slikt spatio-temporal-tekstlig innhold. Målet med prosjektet har vært å utvikle teknikker som gjør det mulig å utføre analyse på data av ekstrem skala, og demonstrere at teknikkene er praktisk anvendbare på "Big data". Forskningen i prosjektet har vært gjennomført på tre del-områder: 1) Eksplorativ analyse for å finne mønster i tekstlige data, for eksempel interessante fraser (gitt en definert metrikk) i resultatet av et web-søk. 2) Bruk av teknikker fra statistikk og informasjonsgjenfinning for å kunne predikere manglende informasjon, eventuelt informasjon som ikke er eksplisitt representert i data. I vårt tilfelle har vi forsøkt å predikere lokasjon og tid for tekster fra sosiale media, slik at tekster uten denne informasjonen eksplisitt representert kan få disse lagt til, og dermed bidra til høyere kvalitet i den eksplorative analysen. 3) Eksplorative spatio-temporal-tekstlige spørringer. Her er analysen typisk representert som en spørring (f.eks., gitt tid og lokasjon), og man er interessert i å finne interessant informasjon gitt disse parametrene. I dette prosjektet har vi blant annet sett på trend-deteksjon gitt tid/lokasjon, et eksempel på hva man kan finne der er at «godt nytt år» "trender" for Times Square på nyttårsaften.

Prosjektet har vore viktig for å utvide gruppa sin kompetanse innan analyse av spatio-temporal-tekstlege data. Dette gjeld spesielt for doktorgradsstudent og postdoktor, som har fått anledning til å fokusere på dette forskingstemaet over lenger tid, og produsere forsking på temaet. Prosjektet har også bidratt til at vi har kunne utarbeide nye prosjektsøknadar med høg relevans og kvalitet, og bidratt til deltaking i internasjonale forskarnettverk. Relevans av forskinga for reelle problemstillingar i bedrifter har også bidratt til finansiering av nye doktorgradsstudentar på relaterte tema, med fokus på morgondagens problemstillingar som for tida er mykje fokusert rundt analyse av datastraumar og datadreven maskinlæring. Meir avanserte og skalerbare teknikkar for dataanalyse kan også vere nyttig for offentlege institusjonar for å få verdi ut av data.

This proposal is for a research project within the FRINATEK program of the Norwegian Research Council, investigating issues in efficient execution of exploratory spatiotemporal-textual (STT) queries on Big Data. A large fraction of Big Data is textual, and has spatial and temporal dimensions, and in this project we will focus on exploratory analysis of data containing such attributes. The project will focus on four main challenges: 1) novel indexing and algorithms for STT queries, 2) fast, approximate, indicative answers to exploratory STT queries, 3) exploratory STT queries with budgetary constraints, and 4) methods for parallel/distributed execution of the exploratory STT queries. The feasibility of the developed techniques will be demonstrated through a prototype implementation.

Budsjettformål:

ISPNATTEK-ISP - naturvit. og teknologi

Finansieringskilder