Tilbake til søkeresultatene

IKTPLUSS-IKT og digital innovasjon

Enhanced Access to Norwegian Cultural Heritage using AI-driven Handwriting Recognition

Alternativ tittel: Økt tilgjengelighet til norsk kulturarv ved hjelp av kunstig intelligens for håndskriftgjenkjenning

Tildelt: kr 12,1 mill.

Prosjektets hovedmål er å lage et system basert på kunstig intelligens, som kan gjenkjenne historisk norsk håndskrift som systemet ikke har sett før og ikke er inkludert i treningen. Dette målet passer svært godt med Nasjonalbibliotekets rolle som et senter for kulturarvsdigitalisering, som inkluderer håndskriftsgjenkjenning, for norske gallerier, biblioteker, arkiver og museer (GLAM). Selv om det har vært en rivende utvikling i kunstig intelligens, datalingvistikk og nevrale nett finnes det ikke et slikt generelt håndskriftsgjenkjenningssystem for norsk i dag. Det finnes bare spesialiserte systemer som bare kan gjenkjenne håndskrift fra skribenter i treningssettet med tilstrekkelig kvalitet. Delmål er å bedre spesiell gjenkjenning for skribenter i treningssettet, øke antall skribenter brukt i treningssettene og automatisere treningsprosessen i så stor grad som mulig. Følgende trinn vil bli brukt å oppnå målene: -Lage et robust layout-analysesystem ut fra eksisterende systemer, som også kan tilpasses til en skribentstil. Layout-analyse, det vil si å finne tekstlinjer og deres rekkefølge, er et viktig trinn i gjenkjenningsprosessen. -Bruke og adaptere state-of-the-art nevral nettverksteknologi for ord og tegngjenkjenning. -Benytte avansert datalingvistikk for historisk norsk for å bedre gjenkjenningen. -Integrere nye teknikker som å lage kunstige dokumenter som etterligner håndskriften til en skribent (ved å bruke GAN-nettverk), men med et kjent innhold som kan brukes til trening uten manuelt arbeid. Videre benytte en trenbar egenskapsbasert metode (?Zero-shot word spotting?) for å gjenkjenne ord og koble sammen med resultater fra andre metoder. -Generere et stort treningssett med ulike skriftstiler og forsøke å minimere manuelt arbeid i forbindelse med transkriberingen. Prosjektet vil i stor grad vektlegge testing og analyse av testresultater i hele utviklingsprosessen for å følge progresjonen og finne problemer som krever spesielle tiltak. Arbeidsplanen for 2021 er nå ferdig og inkluderer alle planlagte aktiviteter.

A digitized document is basically a visual representation that can be read only by humans. To permit computational analysis, the information in the document must be made machine-readable. This is currently standard procedure when digitizing printed documents using Optical Character Recognition (OCR). Even though today's automatic handwriting recognition systems (HTR) can produce transcripts usable for further processing, like indexing or Natural Language Processing, they are still not part of standard digitization procedures. The reason for this is that creating samples representative of the vast diversity of documents and handwriting styles would require annotating unrealistically large numbers of documents, even in the case of relatively small collections. The overall aim of the HUGIN-MUNIN project is to develop technological solutions that will enable the use of HTR without the requirements for massive manual annotation and model training. The solutions developed will go beyond traditional supervised machine learning by using ideas from active learning, unsupervised learning, transfer learning, and zero-shot learning. It will also leverage natural language processing resources recently developed for Norwegian. The impact of the project could be very significant as the National Library acts as a digitization hub for the Norwegian LAM sector. The project will significantly increase the scope and variety of sources available for data-driven research on Norwegian culture and society. It will also democratize the access to knowledge by enabling the public to read documents that have so far been mainly reserved for domain experts and scholars. The project is one of close interdisciplinary collaboration, both nationally and internationally. This will expand Norwegian experience and competence in AI/autonomous systems expertise and ehance the innovative potential of the Norwegian LAM sector.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon