Tilbake til søkeresultatene

IKTPLUSS-IKT og digital innovasjon

Universal Natural Language Understanding

Alternativ tittel: Universell semantikk for naturlige språk

Tildelt: kr 13,1 mill.

Datamaskiner har per i dag vanskelig for å forstå språklig betydning. Hvis du søker i Google etter "bordeauxviner med merlot" og "bordeauxviner uten merlot" så får du omtrent de samme treffene. Det er fordi datamaskinen ikke forsøker å forstå hva du mener, men i stedet finner de mest relevante nettsidene som inneholder de ordene du søker etter. "med" og "uten" er så vanlige ord at de kan finnes på nær sagt enhver nettside. De gir derfor ikke datamaskinen noen informasjon om hva du leter etter. I dette prosjektet forsøker vi å hjelpe datamaskinen til heller å forstå hva du mener og derfor skjønne at når du søker etter "bordeauxviner uten merlot", vil du ha informasjon om viner som ikke inneholder denne druen, som derfor kan finnes på nettsider som ikke inneholder ordet "merlot". For å få til dette trenger vi å representere betydning på en måte datamaskinen kan forstå. I dette prosjektet utvikler vi en metode for å lage slike representasjoner. Vi starter med representasjoner av grammatisk struktur, dvs. hva som er verbet i en setning, hva som er subjektet, objektet osv. og oversetter disse til logiske formler som uttrykker setningens betydning. For grammatiske strukturer finnes det nå en universell standard, Universal Dependencies (UD), som har vært brukt på 90 språk. Prosjektet tar utgangspunkt i slike representasjoner og metoden som skal utvikles kan derfor brukes på alle språk som analyseres med UD. Mye av betydningen til en setning ligger ikke i den grammatiske strukturen, som UD representerer, men i de ordene den inneholder. Det er f.eks. tilfellet med ordet "uten", som inneholder en skjult negasjon: vi kan tenke på det som "ikke med". Slik informasjon må hentes ut av språkspesifikke databaser. Her vil vi bygge på allerede eksisterende ressurser for norsk, som også skal utvides i løpet av prosjektet.

This project will use techniques from Glue semantics to derive semantic representations from UD syntax trees. It will build a software pipeline that can map text to meaning by combining a machine-learning approach to syntactic parsing with a largely rule-driven interface to deep, logic-founded semantic representations that improve considerably on the current state of the art. Moreover, the central part of the system will be based exclusively on information from the UD tree, which means that it can be used for any language that has a UD treebank (currently more than 70 languages). In addition, the project will develop tools for post-compositional enrichment of English and Norwegian meaning representations based on lexical knowledge encoded in resources available for those languages. Improved natural language understanding has the potential to help numerous computational tasks from web search to human-robot interaction and so the potential impact of the project is very large.

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon