Back to search

HUM-Fagkomiteen for humaniora

Fra parallellkorpus til ordnett

Awarded: NOK 2.5 mill.

Prosjektets mål er å videreutvikle og utprøve en metode, utviklet av professor Helge Dyvik, for å avlede ordnett (semantiske nettverk, "concept nets") automatisk fra oversettelseskorpora. Ordnett er en språkteknologisk ressurs av stadig økende betydning o g har flere språkteknologiske anvendelser. De tillater innholdsbasert informasjonssøkning, automatisk logisk inferanse, og mer nyansert maskinoversettelse enn en klarer med enklere leksikonressurser. Parallellkorpora er tekstsamlinger bestående av origin aler og oversettelser fra to eller flere språk, der originalene og deres oversettelser er parallellstilt ("aligned") på setningsnivå, eller i sjeldnere tilfeller også på ordnivå. Metoden tar utgangspunkt i oversettelseskorrespondanser hentet fra et parall ellkorpus. På grunnlag av nettverket av korrespondanser beregnes semantiske relasjoner mellom ord automatisk, f.eks. over-og underbegreper ("dyr" vs. "hund', "god" vs. "snill"), og resultatet fremstilles i en kompleks lattice-struktur. Prosjektets mål er å anvende og utprøve metoden i stor skala mot et norsk/engelsk parallellkorpus. Dette forutsetter blant annet utvikling av en algoritme for parallellføring av originaler og oversettelser på ordnivå, annen programvareutvikling, ekserpering og bearbeidelse av materiale fra korpus, og evaluering av de utviklede algoritmene. Et vellykket resultat vil innebære at deler av arbeidet med å utvikle et norsk ordnett som en ressurs for norsk språkteknologi vil kunne automatiseres.

Funding scheme:

HUM-Fagkomiteen for humaniora

Thematic Areas and Topics

No thematic area or topic related to the project