Tilbake til søkeresultatene

EUROSTARS-EUROSTARS

E!11454 ZoneMaster Advanced Document Layout Analysis

Alternativ tittel: ZoneMaster avansert layoutanalyse

Tildelt: kr 6,0 mill.

Prosjektnummer:

277041

Prosjektperiode:

2017 - 2020

Midlene er mottatt fra:

Organisasjon:

Geografi:

Samarbeidsland:

I automatisk tekstgjenkjenning (OCR) konverteres et bilde av en tekst til en søk- og redigerbar tekstfil. Resultatet av konverteringen kan også inneholde formatering, for eksempel i MS Word fil. Layoutanalyse, som blant annet innebærer finne tekstlinjer og avsnitt i et tekstbilde er en essensiell del av OCR-prosessen. Selv om utviklingen av OCR-teknologi har foregått i mer enn 50 år, er layoutanalysen fremdeles ikke tilfredsstillende løst; i mange dokumenter blir tekstlinjer koblet feilaktig sammen eller fragmentert, dette gjør at ordene i teksten kommer i feil rekkefølge. Enda mer alvorlig er det dersom tekst ikke blir lokalisert i det hele tatt, eller at ikke-tekstlige elementer, for eksempel støy eller grafikk, blir tatt som tekst. Layoutanalysen skal også finne tekstflyten fra avsnitt til avsnitt, noe som kan være svært krevende. Kommersiell OCR-programvare har problemer med layout analyse for historiske dokumenter med mye støy, uvanlige fonter, krumme tekstlinjer og tette avsnitt, men også for moderne dokumenter med kompleks layout. Layoutanalyse i tabeller i dokumenter er generelt heller ikke tilfredsstillende løst. Fordi resultatet av layoutanalysen fra kommersielle programvare er usikker, brukes det mye manuell korrigering av layoutanalysen. Dette er kostbart og tidkrevende, men dersom man ikke gjør dette vil resultatet av OCR være mindre brukbart. Det er derfor et godt marked for en bedre layoutanalyse. Deltagerne i dette prosjektet, Lumex AS, Skilja Gmbh (Tyskland) og PRImA Research (Storbritannia) har lang erfaring med OCR generelt og layout analyse spesielt. I prosjektet skal en ny layoutanalyse-programvare utvikles som skal løse problemene nevnt ovenfor og redusere behovet for manuell korrigering til et minimum. Mer tradisjonelle metoder for layoutanalyse vil bli kombinert med moderne teknologi som deep learning og avansert tekst analyse. Prosjektet har fremstilt en lovende prototyper for layout analyse som allerede yter på høyde og bedre enn kommersielt tilgjengelige alternativer. Forbedringer av algoritmene som skal heve ytelsen ytterligere er planlagt. Det er også laget en spesialløsning som kan løse problemer med krumme tekstlinjer, hvor det også er mulig å rette opp linjene. Dette medfører bedre gjenkjenning av bokstaver. Det er også laget en løsning som er robust for forstyrrende elementer som for eksempel understrekninger og overstrekninger. Slike forstyrrelser kan blant annet fremkomme med at innholdet i et skjema eller tabell er forskjøvet i forhold til rammen, eller fordi det er gjort markering med håndskrift. Resultat av layout analysen er input til bokstav- og ordgjenkjenningen. Det er viktig at resultatet er gitt på en måte som gir best mulig resultat for gjenkjenningen. Det er derfor laget tilpasninger for input til de to mest brukte OCR-programmene brukt for historiske dokumenter. Prosjektet er nå avsluttet etter plan. Interne og eksterne tester har vist layout analyse programmet utviklet i prosjektet, ZoneMaster, har bedre generelt ytelse bedre ytelse på historiske dokumenter enn kommersielt tilgjengelige løsninger. Et veldig interessant, både teknisk og kommersielt, delresultat er kombinasjonen av ZoneMaster og open source OCR-programmet Tesseract4. Tesseract4 bruker deep learning til å oppnå svært god bokstavgjenkjenning, men den interne layout analysen i Tesseract4 er ofte ikke god nok. Kombinasjonen av ZoneMaster og Tesseract4 er derfor et meget interesant produkt.

Achieved outcomes: A fully automatic layout analysis software prototype that has superior performance on historical documents compared to the best commercially available alternatives A very interesting integration of the layout software with the open source deep learning OCR software Tesseract4 that achieves very good results OCR results Potential outcomes A commercially successful layout tool integrated with an open source OCR software With further development layout analysis superior performance for all kinds of documents including modern ones Integration with Lumex OCR enhancing software to increase the recognition further.

Trillions of documents are digitized every year through a process which in one phase, layout analysis or ZONING, still relies on manual intervention. Zoning, preceding OCR and all content classification in the digitization process, is imperative for the result to be usable at all. No reliable tool exists to automatically zone various document types today, meaning costly human intervention is always required. This consortium proposes a software concept which will resolve this problem.

Budsjettformål:

EUROSTARS-EUROSTARS