Tilbake til søkeresultatene

KUNSTI-Kunnskapsutviklling for norsk språkteknologi

BREDT - Behandling av Referensielle Enheter i Diskursteori

Tildelt: kr 3,0 mill.

Projektet använder och utvecklar statistiska metoder baserade på existerande teorier och resurser för att automatiskt upptäcka referenskedjor i text. Att finna koreferens är viktigt inom många områden av automatisk språkbehandling. Till exempel, vid maskinöversättning måste man veta vad varje pronomen refererar till för att kunna översätta det [varje pronomen] korrekt. Ett språk kan t.ex ha ett gemensamt pronomen för han, hon, den, och det, andra språk kan ha flera relevanta kategorier. För att kunna översätta generellt från ett språk måste man veta vad uttrycken refererar till. Refererande nominalfraser, till exempel bestämda nominalfraser (t.ex. 'lejonet') kan referera till något som nämnts tidigare, eller möjligen till en generisk referens (' lejonet är djurens konung'). För automatiskt uppläst tal är det viktigt att veta när något är ny eller gammal information, eftersom ny information bör göras mer framträdande i det upplästa talet. Här dyker också problem upp med indirekt referens genom semantiska relationer, som relationen mellan ordnade begrepp ('schäfer är en slags hund'), eller del-av-helheten ( 'en hund har fyra ben'). Har man nämnt 'schäfer' har man också indirekt nämnt hund, och har man nämnt hund bör det också vara känt att den har fyra ben. Om en viss hund har 5 ben är det troligt att ordet 'fem' skulle betonas. Referenskedjor gör det möjligt att uttrycka sammansatta förhållanden på ett kompakt sätt. Ett problem när det gäller sökningar på t.ex. internet är att re fererande uttryck döljer hur framträdande ett nyckelord är i en text. Det kan vara att ett nyckelord bara nämns explicit en gång i en text, men refereras indirekt via refererande uttryck som 'den' eller 'det' eller ett överordnat substantiv (hunden för sc häfern). Det finns alltså gott om användningsområden för bättre diskursmodeller. Det finns även många olika lösningar på problemet. En lösning kan vara att den som producerar en text, anpassad till maskinell bearbetning, har verktyg som hjälper till att m arkera diskursrelationer. En annan lösning är att den som har behov för information har verktyg som klarar av att upptäcka relevanta diskursrelationer. Vi förväntar inte att problem med referens alltid kan lösas, men även små förbättringar kan hjälpa ti ll att göra tal- och språkteknologiska verktyg både mer använda och användbara. Vi har tillgång till en exempelsamling med 18 miljoner norska löpord. Denna kommer att stegvis förädlas till en resurs som lämpar sig som träningsmaterial för våra statistiska metoder, och som en resurs för lingvistisk forskning. BREDT går i korthet ut på att utveckla metoder för att upptäcka och avgöra referenskedjor med relativt enkla statistiska metoder. Ett huvudmål är att utveckla en generell resurs som är annoterad för anaforer och koreferens. Denna resursen är en grundförutsättning för att kunna använda maskinell inlärning som metod. Vi vill också att resursen ska kunna användas inom lingvistisk forskning. Ett delmål är att upptäcka selektionsrestriktioner för olika v erb, upplösning av diskursanaforer, och automatisk generering av semantiska resurser (genom till exempel statistisk samförekomst av ord) för diskursprocessering.

Budsjettformål:

KUNSTI-Kunnskapsutviklling for norsk språkteknologi

Temaer og emner

Ingen temaer knyttet til prosjektet