Lumex har gjennom mange år utviklet avansert OCR-teknologi med spesiell fokus på dokumenter som er vanskelige å gjenkjenne. Teknologien dekker alle ledd av gjenkjenningen fra preprosessering av bilder, adaptiv gjenkjenning og avansert bruk av ordboksoppsl ag for å bedre gjenkjenningen. Lumex har 9 patentfamiler innenfor OCR-teknologi.
Lumexs gjenkjenningsmetoder er adaptive, dvs at de tilpasser seg egenskapene til dokumentet som skal gjenkjennes og kan således ta alle typer fonter, også spesielle, som f eks gotisk.
Metodene har også vist seg som svært støyrobuste. For å få den adaptive gjenkjenningen startet trenger man en initial gjenkjenning. Denne gjenkjenningen kan godt inneholde en god del feil.
Prosessen blir således
- Preprosessere bildet fo r å gjøre gjenkjenningen med kommersiell OCR best mulig
- Initial Gjenkjenning med kommersiell OCR
- Adaptiv gjenkjenning (Lumex) på basis av initial gjenkjenning
- Oppslag i ordbøker og databaser med statistikk over bokstav- og ord-kombinasjoner fo r å bedre gjenkjenningen.
Vi vil søke internasjonale partnere som
- Har kompetanse innenfor preprosessering bilder
- Har utfyllende kompetanse om mønstergjenkjenning for støtte til gjenkjenning
- Har kunnskap om datalingvistikk med fokus på historiske d okumenter
- Har eller kan lage testdokumenter med manuelt renskrevet tekst
- Lager eller har tilgang på total systemer for digitalisering av historiske dokumenter
Lumex har kontakter med potensielle partnere som besitter disse kunnskapene, og vil bruke t iden fremover til å danne partnerskap og fordele roller ifm et EuroStar-prosjekt