IKTPLUSS-IKT og digital innovasjon

Forsterkninglæring (RL) er en form for kunstig intelligens (AI) som omhandler problemet med å ta beslutninger med hensyn til et gitt mål. Populære eksempler på RL suksesser er roboter som lærer å gå eller fly av seg selv, eller datamaskiner som slår menneskelige mestere i Chess and Go-spillene. Beslutningene tatt av en RL-basert AI støttes oftest av Kunstige Neural Networks (ANNs). ANNs er in-silico strukturer som etterligner funksjonen av biologiske nevrale systemer, inkludert evnen til å lære av erfaringer. RL gir et bredt sett med metoder som kan brukes til å lære ANNs hvordan man tar bedre beslutninger for det oppgitte målet. En anerkjent mangel med å bruke ANN-basert beslutningstaking er mangelen på gjennomsiktighet i beslutningsprosessen, vanskeligheten med å utforme et ANN som er egnet for å lære en gitt oppgave, og vanskeligheten med å bekrefte at ANN vil ta sikre beslutninger. Mens RL er basert på meget solide matematiske grunnlag, er implementeringen ved hjelp av ANNs noen ganger sammenlignet med alkymi, og industrien er ofte motvillig til å bruke den når sikkerhet og forpliktelser står på spill. SARLEM-prosjektet utvikler en ny tilnærming til implementering av RL-metoder. Innenfor klassisk beslutningstakingsteori fattes beslutninger via formell og eksplisitt vurdering av deres effekter på fremtiden. Fordelen er at beslutningsprosessen er ganske gjennomsiktig, enkel å designe og sikkerhetssertifiserbar. Våre undersøkelser viser at klassiske beslutningsverktøy kan kombineres til Forsterkning Læringsmetoder, skape en ny form for AI som kombinerer det beste fra begge verdener, nemlig evnen til å lære av erfaring og muligheten til å ta gjennomsiktige og sikre beslutninger. SARLEM-prosjektet bringer denne ideen til modenhet, og takler de viktigste tekniske hindringene for den omfattende distribusjonen, og demonstrerer potensialet i praksis.

AI is increasingly deployed in the industry. It is currently used for applications where decisions are not safety-critical or where human operators can vet the decisions before their deployment. Industries dealing with cyber-physical systems evolving in complex environments could substantially benefit from AI tools that can learn to improve the decisions process using data collected in the past. High-tech companies commonly use Model Predictive Control (MPC) to deal with control and decision problems involving safety requirements, and have started using AI tools for cyber-physical systems at the Research and Development level. Reinforcement Learning (RL), a subfield of AI capable of learning to take optimal decisions for cyber-physical systems, is a very common choice. Unfortunately, deploying RL is problematic whenever safety requirements and liabilities are at stake. Industries want to understand and have safety certificates on the automated decisions driving their products, and this is difficult to obtain for existing RL methods. Hence deploying RL tools in systems involving safety requirements is currently a major difficulty. Some companies involved in Autonomous Driving use ad hoc heuristics to deal with the problem, but a genuine solution is still missing. This project will merge theoretical results from RL with advanced, formal control methods resulting from the field of MPC to create a novel form of AI for cyber-physical systems where the decisions can be explained and certified for safety. Performing the research proposed in this project requires a unique combination of in-depth knowledge both in RL and MPC, which few groups possess. NTNU is currently in a great position to carry this research forward. The project will be integrated within the AMOS center and the Open AI Lab at NTNU, which offer unique expertize in the field of safety for autonomous systems and AI. The companies DNVGL and Kongsberg Maritime will be fully active project partners.

Publikasjoner hentet fra Cristin

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon

2,6MRD. KRtotalt tildelt i programperioden 658PROSJEKTERhar fått tildeling i programperioden 8KILDERhar finansiert programmet

Finansieringskilder

Kunnskapsdepartement Justis- og beredskap Kommunal-og distrikt Samferdselsdeparteme Diverse Nærings- og fiskerid Forsvarsdepartemente Digitaliserings- og

IKTPLUSS-IKT og digital innovasjon

Safe Reinforcement Learning using Model Predictive Control

Alternativ tittel: Sikker forsterkningslæring ved hjelp av modellprediktiv kontroll

Tildelt: kr 14,8 mill.

Populærvitenskapelig framstilling

Sammendrag

Publikasjoner hentet fra Cristin

Variance-Based Exploration for Learning Model Predictive Control

Convex Neural Network-Based Cost Modifications for Learning Model Predictive Control

Safe reinforcement learning using robust MPC

Reinforcement Learning based on MPC and the Stochastic Policy Gradient Method

Model Predictive Control and Reinforcement Learning: Introduction and Novel Results

Introduction to Reinforcement Learning and Model Predictive Control

Bias Correction in Reinforcement Learning via the Deterministic Policy Gradient Method for MPC-Based Policies

Reinforcement Learning and Model Predictive Control: Theory and Recent Results

Budsjettformål:

IKTPLUSS-IKT og digital innovasjon

Finansieringskilder

Temaer og emner