Tilbake til søkeresultatene

EUROSTARS-EUROSTARS

E!9118 OptO-Heritage

Alternativ tittel: OptO-Heritage

Tildelt: kr 4,0 mill.

Prosjektnummer:

242352

Prosjektperiode:

2014 - 2017

Midlene er mottatt fra:

Organisasjon:

Geografi:

Samarbeidsland:

Automatisk tekstgjenkjenning (Optical Character Recognition/OCR) innebærer å konvertere bilder av dokumenter til søkbar og redigerbar tekst. Kommersiell OCR programvare fungerer bra på moderne dokumenter, men har typisk høy feilrate på historiske dokumenter. Det er flere grunner til dette: + Dokumentene er typisk støyfulle og med lav kontrast på grunn av elde og primitiv trykkeprosess + Det er brukt spesielle fonter (f eks. gotisk) + Språket er gammeldags, ofte uten en standardisert stavemåte + Vanskelig layout, f eks. med tekstkolonner som står tett inntil hverandre + Buede tekstlinjer, enten pga av trykkeprosessen eller fordi det er skannet fra innbundne dokumenter + Teksten kan være delvis dekket av «forstyrrende elementer» som f. eks. manuelle linjer, stempler, bretter, skraper i mikrofilm og utsmurt blekk Lumex har sammen med sin samarbeidspartner i dette prosjektet, Skilja, utviklet teknologi som forbeder gjenkjenning av dokumenter med slike problemer. Sentrale metoder har vært adaptiv gjenkjenning som tilpasser seg fonter og støynivå i dokumentet under prosessering og avanserte ordboksoppslag. Programvaren i prosjektet gjør en ny gjenkjenning med utgangspunkt i et resultat fra en «vanlig» kommersielt tilgjengelig OCR programmer. Det har vært testet med flere forskjellige typer kommersielle OCR programmer. Resultatene har vært positive; sammenlignet med utgangspunktet, har prosjektet ofte oppnådd signifikante forbedringer og fjernet mer enn halvparten av feilene. Det har i prosjektet blitt utviklet flere prototyper som er testet i industrielle miljøer hos ledende aktører i verden innenfor dokumentkonvertering. Denne testingen vil fortsette etter prosjektslutt med gode muligheter for generering av inntekter i nær fremtid. Parallelt med det tekniske arbeidet, er det gjort en intensiv kartlegging av marked og kunder med fokus på verdiskaping som følge av teknologien er utviklet.

The project results in a new software product. This will be a booster module, the OptO-Heritage, designed to enhance the performance of the core building block - ABBYY's OCR engine FineReader - in production infrastructures of the market leading content conversion actors. The booster, specifically aimed for cultural heritage documents challenges, will further be designed for seamless integration into existing production chains. The module aims to radically increase quality of OCR?d content. This is critical: OCR'd content is an intermediate product in the production process, the quality of which has dramatic impact on how much time and cost the provider must invest to obtain contractual quality for a certain deliverable (PDF, METS/ALTO or standard XML) to his client.

Budsjettformål:

EUROSTARS-EUROSTARS