Tilbake til søkeresultatene

IKTFORSKNING-IKTFORSKNING

Enhanced Access to Norwegian Cultural Heritage using AI-driven Handwriting Recognition

Alternativ tittel: Økt tilgjengelighet til norsk kulturarv ved hjelp av kunstig intelligens for håndskriftgjenkjenning

Tildelt: kr 12,1 mill.

Norges biblioteker, arkiver og museer huser millioner av sider med håndskrevne dokumenter som fortsatt i stor grad er utilgjengelige for digital analyse. HUGIN-MUNIN-prosjektet satte seg som mål å endre dette ved å bygge ett smart datasystem som kan: • Lese norske ord i håndskrift det aldri har sett før • Generere håndskrevet tekst i en spesifikk håndskrift • Håndtere dokumenter med varierende oppsett Målet med Hugin Munin-prosjektet var enkelt: gjøre det enkelt og raskt å forvandle støvete håndskrevne sider til søkbar, digital tekst. Historiske arkiver står overfor to store utfordringer: For det første finnes det rett og slett ikke nok sider som er transkribert av eksperter – manuell annotering er tidskrevende og kostbar, og kan ta timer for én enkelt manuskriptside. For det andre er det nesten umulig å samle eksempler på hver eneste frase eller kombinasjon av ord i hver enkelt persons håndskrift. Du kan ha eksempler på en forfatters navn eller vanlige fraser, men hva med et sjeldent stedsnavn, et unikt idiom eller det ene diktverset du virkelig vil digitalisere? Vår zero-shot leser og diffusjon baserte metoder utgjør en kraftig kombinasjon mot de to hovedhindringene med sjelden annotasjon og ukjent håndskrift. Alene kan ResPho(SC)Net gjenkjenne helt nye ord uten å ha sett dem i treningen. Men for å gå enda lenger trenger vi skreddersydde eksempler i hver forfatters unike stil – for de sjeldne navnene, idiomene eller registeroppføringene som aldri kom med i de opprinnelige treningsdatasettene. Det er her våre diffusjon baserte metoder kommer inn: gitt bare noen få ekte linjer eller ord fra en bestemt forfatter, kan de “avstøye” visuell støy og skape klare, personlige håndskriftprøver – hele setninger eller enkeltord – på forespørsel. Sammen bryter denne synergien flaskehalsen med tidkrevende annotering og leverer en virkelig fleksibel, selvlærende AI som mestrer enhver tekst i enhver håndskrift. Men for å ta det enda lengre trenger vi skreddersydde eksempler i hver skribents unike stil for de sjeldne navnene, idiomene, eller registerpostene som aldri kom inn i våre opprinnelige treningsdata. Her kommer våre diffusjonsmotorer inn: Med bare et fåtall av virkelige linjer eller ord fra en bestemt forfatter kan de avstøy ren visuell "statisk" til klare, personaliserte håndskriftprøver—hele setninger eller enkeltord—på oppfordring med spesifikt tekstinnhold. Sammen bryter denne synergien den gamle flaskehalsen med arbeidskrevende annotasjon og leverer en virkelig fleksibel, selvlærende AI som mestrer enhver tekst i enhver skrivestil. Men HUGIN-MUNIN stoppet ikke ved å imitere og gjenkjenne usett tekst. Vi låste opp skjulte “stilkoder” i nettverkene våre – små signaturer av hver forfatters særpreg – og lærte å blande dem like lett som å mikse maling. På et øyeblikk kan systemet frembringe fem ganger flere unike håndskriftstiler, og kombinere bestemors myke løkker med en kontorists presise bokstaver – uten én eneste ny treningslinje. Selvfølgelig kan selv de smarteste nevrale nettverk snuble over rare stavemåter eller uklare bokstaver. Derfor kombinerte vi moderne AI med litt gammeldags lingvistikk: raske n-gram-språkmodeller som rangerer maskinens gjetninger på millisekunder, og reduserer feil betydelig. I en direkte test av åpen kildekode-verktøy som Kaldi og PyLaia, viste vi at med ekspertjustering kunne PyLaia konkurrere med kommersielle systemer. Til slutt, en visjon-transformer lærte å dele skrift opp i mikroskopiske bildebiter og gjenkjenne hver forfatters unike pennetrykk og kurvemønstre. Selv på uklare, skadede sider identifiserer den forfatteren med stor nøyaktighet. Takket være Hugin-Munins forskning kan støvete arkiver søkbare skattkamre. Det er ikke lenger utenkelig at slektsforskere kan laste opp et falmet brev og få en lesbar transkripsjon, eller at kunstnere kan blande århundregamle skrifttyper til nye digitale fonter.
The HUGIN-MUNIN effort rested on tightly linked research thrusts—each driven by one or more partners whose expertise made our breakthroughs possible: 1. Zero-Shot Word Image Recognition Model Design (HIOF) Architected ResPho(SC)Net’s embedding framework reduces model size by two-thirds while learning a mapping between visual and semantic features to read entirely unseen word images with high accuracy. 2. Writer Identification on Nordic Handwritings (HIOF & National Biblioteket) Our WiT vision-transformer model tackled author attribution: by splitting handwriting into patch tokens and learning unique stroke patterns, it reached high accuracy even on noisy samples, offering an AI-driven writer-forensics capability. 3. Synthetic Data Generation (HIOF) In this project, Diffusion-based models were developed and compared for both full text lines (HTLDiff) and single words (Word-Diffusion), meticulously tweaking the diffusion-based pipeline to produce the most realistic synthetic handwritten text. 4. Neural Network and Language Model Amalgamation(Teklia) Here are the key research findings from the neural–linguistic integration work: (a) Flexible n-gram Plug-in: Developed a simple, modular interface for injecting n-gram language models into PyLaia’s decoding step—no deep code rewrites required. (b) Broad Architecture Gains: Both PyLaia and the Document Aware Network (DAN) showed significant error reductions when paired with explicit n-gram Language Models, proving the approach is not dependent on any single neural backbone. 5. Dataset & Evaluation (Teklia, National Bibloteket, Anahit) This project introduces an open database of Norwegian historical handwritten documents , the first of its kind, allowing the development of handwritten text recognition models (HTR) in Norwegian. In order to evaluate the performance of state-of-the-art HTR models on this new base, a systematic survey of open-source HTR libraries published between 2019 and 2021 was conducted.
A digitized document is basically a visual representation that can be read only by humans. To permit computational analysis, the information in the document must be made machine-readable. This is currently standard procedure when digitizing printed documents using Optical Character Recognition (OCR). Even though today's automatic handwriting recognition systems (HTR) can produce transcripts usable for further processing, like indexing or Natural Language Processing, they are still not part of standard digitization procedures. The reason for this is that creating samples representative of the vast diversity of documents and handwriting styles would require annotating unrealistically large numbers of documents, even in the case of relatively small collections. The overall aim of the HUGIN-MUNIN project is to develop technological solutions that will enable the use of HTR without the requirements for massive manual annotation and model training. The solutions developed will go beyond traditional supervised machine learning by using ideas from active learning, unsupervised learning, transfer learning, and zero-shot learning. It will also leverage natural language processing resources recently developed for Norwegian. The impact of the project could be very significant as the National Library acts as a digitization hub for the Norwegian LAM sector. The project will significantly increase the scope and variety of sources available for data-driven research on Norwegian culture and society. It will also democratize the access to knowledge by enabling the public to read documents that have so far been mainly reserved for domain experts and scholars. The project is one of close interdisciplinary collaboration, both nationally and internationally. This will expand Norwegian experience and competence in AI/autonomous systems expertise and ehance the innovative potential of the Norwegian LAM sector.

Budsjettformål:

IKTFORSKNING-IKTFORSKNING