Tilbake til søkeresultatene

PES2020-Prosj.etabl.støtte H2020

Søker å etablere et prosjekt for tekstgjenkjenning (OCR) av historiske dokumenter med bruk av adaptiv gjenkjenning og datalingvistikk.

Tildelt: kr 0,14 mill.

Prosjektleder:

Prosjektnummer:

238562

Prosjektperiode:

2014 - 2014

Midlene er mottatt fra:

Organisasjon:

Geografi:

Lumex har gjennom mange år utviklet avansert OCR-teknologi med spesiell fokus på dokumenter som er vanskelige å gjenkjenne. Teknologien dekker alle ledd av gjenkjenningen fra preprosessering av bilder, adaptiv gjenkjenning og avansert bruk av ordboksoppsl ag for å bedre gjenkjenningen. Lumex har 9 patentfamiler innenfor OCR-teknologi. Lumexs gjenkjenningsmetoder er adaptive, dvs at de tilpasser seg egenskapene til dokumentet som skal gjenkjennes og kan således ta alle typer fonter, også spesielle, som f eks gotisk. Metodene har også vist seg som svært støyrobuste. For å få den adaptive gjenkjenningen startet trenger man en initial gjenkjenning. Denne gjenkjenningen kan godt inneholde en god del feil. Prosessen blir således - Preprosessere bildet fo r å gjøre gjenkjenningen med kommersiell OCR best mulig - Initial Gjenkjenning med kommersiell OCR - Adaptiv gjenkjenning (Lumex) på basis av initial gjenkjenning - Oppslag i ordbøker og databaser med statistikk over bokstav- og ord-kombinasjoner fo r å bedre gjenkjenningen. Vi vil søke internasjonale partnere som - Har kompetanse innenfor preprosessering bilder - Har utfyllende kompetanse om mønstergjenkjenning for støtte til gjenkjenning - Har kunnskap om datalingvistikk med fokus på historiske d okumenter - Har eller kan lage testdokumenter med manuelt renskrevet tekst - Lager eller har tilgang på total systemer for digitalisering av historiske dokumenter Lumex har kontakter med potensielle partnere som besitter disse kunnskapene, og vil bruke t iden fremover til å danne partnerskap og fordele roller ifm et EuroStar-prosjekt

Budsjettformål:

PES2020-Prosj.etabl.støtte H2020