Tilbake til søkeresultatene

TU-HUM-Utstyr/databaser/samlinger - Humaniora

Et norsk talespråkskorpus (NoTa)

Tildelt: kr 1,9 mill.

Målet er å utvikle første del av Norsk Talespråkskorpus, NoTa, nemlig NoTa-Oslo. Mange land har slike korpus, både i Norden og ellers. Et talespråkskorpus er nødvendig for å kunne benytte moderne metoder og teorier i språkteknologi og språkforskning og fo r å utvikle gode taleteknologiprodukter for norsk, slik som hjelpeverktøy for funksjonshemmede, automatiske opplysningstjenester over telefon og dikteringsprogrammer. Korpuset vil bestå av et digitalisert lydmateriale og et websøkbart, transkribert tekstkorpus. Det vil bli et "flerbrukskorpus", og inngå som en del av Norsk Språkbank (jf. Kultur- og kirkedepartementets rapport 2002 om samling av språkteknologiressurser) . Korpuset vil i første omgang bli på ca 2 millioner ord med talespråk fra Oslo-området.(Det planlagte NoTa vil ha 3,5 millioner ord, med talespråksmateriale fra Oslo, Bergen og Trondheim i forholdet 2:1:1.) De ulike taleteksttypene vil følge talespråkkorpu set Corpus Gesproken Nederlands, med hovedvekt på privat dialog, og uten manuskript (ansikt-til-ansikt-samtale og telefon). Innenfor hver region blir et representativt befolkningsgrunnlag valgt ut. Både metodemessig - innsamling, transkripsjon og teknisk utvikling - og rent språkteknologisk beveger man seg i tildels ukjent terreng, noe som vil gi mye verdifull viten for fremtiden. Prosjektledelsen og referansegruppen er alle aktive forskere innen sp råkvitenskapelige og språkteknologiske disipliner.

Budsjettformål:

TU-HUM-Utstyr/databaser/samlinger - Humaniora

Finansieringskilder

Temaer og emner

Ingen temaer knyttet til prosjektet