Tilbake til søkeresultatene

BIA-Brukerstyrt innovasjonsarena

Iris.ai - the AI Chemist

Alternativ tittel: Iris.ai - Kjemikeren av kunstig intelligens

Tildelt: kr 9,0 mill.

For å nå det overordnede AI Chemist-prosjektmålet, har Iris.ai gjennomført følgende delprosjekter: 1. Domain-specific word embeddings Domenetilpassing av 'word embeddings' er en velprøvd teknikk for domener som har utilstrekkelig data til å trene opp en effektiv modell fra bunnen av. Kjemi er et slikt domene, der vitenskapelig sjargong og spesialisert terminologi begrenser ytelsen til en generell språkmodell. Vi har gjennomført eksperimenter med to teknikker: 1.a. Spherical embeddings Den nylig foreslåtte 'spherical embeddings model' (JoSE) trener parallelt ord- og dokument-embeddinger i en flerdimensjonal 'unit sphere', noe som fungerer godt for dokumentklassifisering og ordkorrelasjonsoppgaver. Vi har dog demonstrert at en ikke-konvergens forårsaket av globale rotasjoner under treningen hindrer den fra målet om domenetilpasning. Vi har utviklet metoder for å motvirke denne globale rotasjonen av embedding-området, og foreslått strategier for å oppdatere ord og dokumenter under domenespesifikk trening. I dette arbeidet har vi vist at våre strategier kan redusere kostnadene ved domenetilpasning til et nivå som ligner på Word2Vec. 1.b. Latent semantic imputation (LSI) Pålitelige word embeddings krever store mengder tekstdata. For høyt spesialiserte domener som kjemi kan de viktigste 'entities' være svært sjeldne. Ofte har vi mye informasjon om disse entities som ikke er i tekstform, men i form av målte fysiske eller kjemiske egenskaper. Latent Semantic Imputation (LSI) er en foreslått tilnærming som forbedrer en generisk word embeddings-matrise med ekstern informasjon fra tekstlig eller ikke-tekstlig domenekunnskap. Vi har demonstrert at LSI er anvendelig for vitenskapelig tekst der problemer med sjeldne og nye ord gjør seg spesielt gjeldende, og at metoden også kan fungere med relasjonsbasert data og dermed åpner opp for et bredere spekter av datakilder. VI har vist at LSI er en egnet metodikk for kontrollerte oppdateringer og forbedringer av vitenskapelige word embeddings, basert på domenespesifikke 'knowledge graphs'. 2. Embeddings evaluation framework Evalueringer av generelle word embeddings har fått mye oppmerksomhet i NLP-miljøet. Generelt er innebygde evalueringsoppgaver kategorisert i litteraturen som enten indre eller ytre. Indre evalueringer undersøker den geometriske strukturen til det genererte innebygde vektorrommet og trenger ikke noe utover rå ordvektorer. Ytre evalueringer er de der word embeddings brukes som et inputlag til en oppgavespesifikk maskinlæringsmodell (ML). Dette prosjektet tok sikte på å utvikle en pakke med overførbare indre og ytre oppgaver for domenespesifikke word embedding-evalueringer, som kan brukes på kjemispesifikke evalueringer. Vi kombinerte ideene til en ytre test, VecEval, og en indre test, LDT toolkit, for å designe et automatisert system for å evaluere word embeddings ved å bruke ulike indre og ytre evalueringsoppgaver. Gjennomført prosjekt inkluderer implementeringer av 'semantic partitioning' som en av de indre oppgavene, og 'named entity recognition' (NER) og dokumentklassifisering som en del av de ekstrinsiske oppgavene. 3. Knowledge graph building For å identifisere nye applikasjoner for eksisterende kjemikalier fra millioner av forskningsartikler, er det avgjørende å bygge en kunnskapsgraf som hjelper forskeren å navigere i disse publikasjonene. For å gjøre det samarbeider vi (1) med forskningsgruppen CORE ved Open University (OU) for å klassifisere typer av siteringer som brukes i litteraturen; og (2) med KnowLab ved University Colleges of London (UCL) for å forstå hvordan man kan berike en menneskeskapt ontologi med word embeddings. 3.a. Citation-typing (OU) Sammen med CORE-teamet har vi gjennomført vi en undersøkelse av ulike tilnærminger til å klassifisere sitat-typer og brukte dette for å velge fokusområde. Vi har valgt ut datasettet som våre fremtidige eksperimenter skal utføres på, og vi har samarbeidet med over 20 internasjonale deltakende team for å etablere 'baseline' som vi skal måle fremgangen vår mot. Dette en solid tilnærming til å etablere en baseline som ikke er triviell, men state-of-the-art. Arbeidet vårt fremhever også hvilke maskinlæringsmodeller som har en tendens til å lykkes med disse oppgavene, noe som vil gjenspeiles i vårt fremtidige samarbeid. 3.b. Ontology enrichment (UCL) I dette prosjektet kombinerer vi de domenespesifikke word embeddings (DSWE) vi har utviklet selv med en enkel ontologi laget av domeneeksperter. Ontologien forventes å inneholde nøkkel-entities, som definerer nøkkelbegreper og deres relasjoner i et spesifikt domene. Gjennom named entity recognition og disambiguering og ved hjelp av DSWE, tar vi sikte på å berike og utvide den enkle ontologien ved å injisere kontekstuell informasjon om entities identifisert i tekst.

The research undertaken in the Iris.ai the AI Chemist project has enabled us to advance our work towards the "AI Researcher". This has opened up a set of brand new market opportunities for us, from research institutes to corporate R&D and even publishing houses. The direct results of the AI/ML research performed has for example enabler our commercial collaboration with not-for-profit Materiom: Their goal is to make publicly available a database of material data (ingredients, recipe and ensuing properties) from over 50,000 research papers. Our table extraction, named entity recignition and other ML models have enabled us to extract, systematize, link and populate this database automatically. The database will be used by researchers aiming to find non-petrochemical alternatives to their use cases. Materiom is one of many clients we are already undertaking these projects with - projects that have commercial and environmental value. Thus, the expected effects of the research project has already been proven, and the potential effects continue to remain major, as described in the initial application: chemicals and materials are widely used in our daily life: in our homes, cars, electronics, food, medications - in fact, in about 95 % of all goods we consume or use. Offering tools for the chemical and material science industry to develop sustainable materials, better battery technology, food for everyone will be a vital impact of this project.

Iris.ai is building a set of innovative artificial intelligence-tools for chemical research. Using the latest breakthroughs in text understanding these tools will allow researchers to automatically do what today not only needs to be done manually, but often is so tedious and time consuming it can not be done. These tasks include identifying novel application areas for existing compounds from scanning millions of research papers and patents, both finding applications that are described directly and finding applications that can be inferred from several sources. The key R&D challenge to achieve this is to develop an artificial intelligence algorithmic core engine within natural language understanding, mainly concerning understanding similarity, compositionality, causality and ranking metrics. More specifically, the research challenges for this project is to research and develop domain-specific knowledge discovery with context aware word-embeddings as well as domain specific entity embeddings. The engine should be able to build unique representation of the provided chemical element, link it to existing written knowledge available (patents, science articles, etc.) about the element or similar such elements and finally organize that knowledge into application areas and presented it to the user. Additionally we will extend the functionality of that engine to be able to infer application areas that are not explicitly derived from the literature, but are linked based on linkages in between connected elements in the body of knowledge. We will verify those objectives in close collaboration with clients from the Chemical Industry, which will provide us with an Ontology of interest, and examples from their day-to-day work. We will also use available public open access repositories of Chemistry related textual information and elements, molecules and compounds registries and databases for validating the embeddings space.

Budsjettformål:

BIA-Brukerstyrt innovasjonsarena