Back to search

PES2020-Prosj.etabl.støtte H2020

Søker å etablere et prosjekt for tekstgjenkjenning (OCR) av historiske dokumenter med bruk av adaptiv gjenkjenning og datalingvistikk.

Awarded: NOK 0.14 mill.

Project Manager:

Project Number:

238562

Project Period:

2014 - 2014

Funding received from:

Organisation:

Location:

Lumex har gjennom mange år utviklet avansert OCR-teknologi med spesiell fokus på dokumenter som er vanskelige å gjenkjenne. Teknologien dekker alle ledd av gjenkjenningen fra preprosessering av bilder, adaptiv gjenkjenning og avansert bruk av ordboksoppsl ag for å bedre gjenkjenningen. Lumex har 9 patentfamiler innenfor OCR-teknologi. Lumexs gjenkjenningsmetoder er adaptive, dvs at de tilpasser seg egenskapene til dokumentet som skal gjenkjennes og kan således ta alle typer fonter, også spesielle, som f eks gotisk. Metodene har også vist seg som svært støyrobuste. For å få den adaptive gjenkjenningen startet trenger man en initial gjenkjenning. Denne gjenkjenningen kan godt inneholde en god del feil. Prosessen blir således - Preprosessere bildet fo r å gjøre gjenkjenningen med kommersiell OCR best mulig - Initial Gjenkjenning med kommersiell OCR - Adaptiv gjenkjenning (Lumex) på basis av initial gjenkjenning - Oppslag i ordbøker og databaser med statistikk over bokstav- og ord-kombinasjoner fo r å bedre gjenkjenningen. Vi vil søke internasjonale partnere som - Har kompetanse innenfor preprosessering bilder - Har utfyllende kompetanse om mønstergjenkjenning for støtte til gjenkjenning - Har kunnskap om datalingvistikk med fokus på historiske d okumenter - Har eller kan lage testdokumenter med manuelt renskrevet tekst - Lager eller har tilgang på total systemer for digitalisering av historiske dokumenter Lumex har kontakter med potensielle partnere som besitter disse kunnskapene, og vil bruke t iden fremover til å danne partnerskap og fordele roller ifm et EuroStar-prosjekt

Funding scheme:

PES2020-Prosj.etabl.støtte H2020