Tilbake til søkeresultatene

BIA-Brukerstyrt innovasjonsarena

Lumex Optical Character Recognition

Alternativ tittel: Lumex automatisk tekstgjenkjenning

Tildelt: kr 4,1 mill.

Det finnes en stor mengde historiske dokumenter som ønskes konvertert til søkbar og redigerbar tekst. Dette er noe mer enn digitalisering, som i sin enkleste form bare innebærer å lage digitale bilder av dokumentene. Konverteringsprosessen kalles på engelsk Optical Character Recognition (OCR), på norsk kan vi kalle det automatisk tekstgjenkjenning. Tekstgjenkjenning av historiske dokumenter er krevende pga lav kontrast, at blekk og papir er skadet av elde og bruk av mange spesielle fonter. Postkorreksjon med oppslag i ordbøker er en mye brukt metode for tekstgjenkjenning. Dette er også mer krevende i historiske dokumenter som kan ha språk med gammeldagse ord og skrivemåter. Et tilleggsproblem i mange historiske dokumenter er at ikke-tekstlige elementer kan dekke bokstavene. Dette kan være ting som f eks stempler, overstrekninger, skjemalinjer som er feil plassert i forhold teksten og mikrofilmskraper. Dette skaper store problemer både for deteksjon hvor teksten er, layout analyse, og gjenkjenning av teksten. Gjennom prosjektet søker Lumex løsninger på dette problemet. Lumex grunnleggende algoritmer har blitt videreutviklet for gjenkjenning av tekst skjult bak ikke-tekstlige elementer. Dette inkluderer oppslag i spesielle ordbøker. Lumex rutiner for forbedring av tekstgjenkjenning er adaptive og bruker en initial gjenkjenning for å bygge modeller av hvordan bokstavene ser ut. Initieringsrutinene er blitt modifisert slik at de ikke tekstlige elementene ikke skaper støy i modellene. Bokstavsplitting (dvs. korrekt deling av et ord i separate tegn) har spesielle utfordringer i dokumenter med ikke tekstlige elementer. Det gir mange flere muligheter for feil når avgrensingen av bokstaven er usikker. Det har vært arbeidet mye med å få rutinene her mest mulig robuste, blant annet har avanserte lingvistiske metoder inkludert oppslag på Internett blitt brukt . Et viktig element i behandlingen er påvisning og presis lokalisering av de ikke-tekstlige elementene. Norsk Regnesentral (NR) har utviklet algoritmer for dette. Effektiviteten av disse algoritmene har blitt testet , både direkte når de ikke-tekstlige elementers lokalisering er nøyaktig kjent, og det i sin innflytelse på layout analyse (der tekstlinjer og tekststruktur blir funnet) , og tegngjenkjenning både i kommersiell OCR-programvare og Lumex gjenkjenningsforbedring. NRs lokaliseringsrutiner har stadig blitt forbedret og samtidig som eksekveringstiden har blitt redusert. NR har skrevet en rapport om bruk av deres lokaliseringsrutiner på layoutanalyse og gjenkjenning. De har også laget en versjon som Lumex har brukt og som er del av programvare for behandling av dokumenter med ikke-tekstlige elementer. Avansert programvare for testing har blitt utviklet inkludert generering av syntetiske dokumenter som med spesifiserte nivåer av støy og tildekkende elementer. Fasiter (manuelt korrigerte ) har blitt laget for en rekke reelle dokumenter. Testverktøy som inkluderer behandling med state-of-the-art kommersiell OCR prosessering programvare ( FineReader ) har blitt gjort . Den resultatet fra Reader er forbedret med Lumex gjenkjenningsprogramvare tilpasset delvis skjult tekst. Lokaliseringen av de ikke-tekstlige elementene er estimert ved hjelp av algoritmer og programvare utviklet av NR . Dette oppsettet opp med en kommersiell OCR programvare forbedret med programvare deteksjon av ikke-tekstlige elementer og tegngjenkjenning bak disse kan brukes i en industriell setting. Når ikke-tekstlige elementer har blitt detektert , er det mulig å prøve å fjerne dem. Dette vil også fjerne deler av tegnene gjemt bak elementene, men for en kommersiell OCR-programvare det kan fortsatt forbedre resultatene. De ikke-tekstlige elementene vil ha en effekt i to trinn i prosesseringen layout analyse og tegngjenkjenning . Vanligvis er forskjellige metoder for fjerning av ikke-tekstlige elementer i et bilde optimale i hvert trinn. Verktøy for testing av kvalitet av layout analyse med en kommersiell OCR programvare er laget. Innvirkningen av ikke-tekstlige elementer samt forbedringen ved forskjellige preprosessingsmetoder med bruk av NR lokaliseringsrutiner spesielt tilpasset layout analyse er dokumentert. Det er mulig å bruke lingvistiske metoder som ordboksoppslag og oppslag i frase-databaser til å finne ord selv om enkeltbokstaver er helt ugjenkjennelige. En rapport som viser gode testresultater med kun lingvistiske metoder og som derved måler disse metodene effektivitet er skrevet.

Our main objective is the development of software for performing OCR in documents containing stamps, ink stains, underlinings etc. Such clutter is very often present in heritage documents. This problem is not handled well by existing OCR software and c onstitutes a large problem in OCR of these documents. We will establish a ground truth database and, using this as a reference, develop new algorithms for detection and precise localization of clutter as well as a measure of the quality of the detection of the clutter. We will also address the problem of document layout analysis in the presence of clutter. Knowing the position of the clutter we will develop new OCR methods for use on the text affected by this clutter. Finally, we will develop ling uistic approaches for post-correction for use in text sections containing clutter. There are several significant research challenges in this project. It is critical to know where the clutter is located. Surprisingly little research has been performed in this field and completely new approaches must be developed. Knowing the position of the clutter one can tailor the character and word recognition mechanisms to the effect the clutter has on the document, however, this remains very challenging. We w ill also develop linguistic methods tailored to the postcorrection of errors introduced by the clutter. Finally, we address the analysis of the document layout in the presence of clutter. There is a huge need for improved methods for OCR of heritage do cuments. Currently, a large effort is undertaken to digitalize cultural heritage documents, but the full potential of this effort cannot be reached before good OCR results can be obtained. When such results are available, this will facilitate documen tation and research and increase public cultural heritage awareness. The market is significant and the economic incentive for performing research in this domain is strong.

Budsjettformål:

BIA-Brukerstyrt innovasjonsarena