Katalyse er en grunnleggende teknologi som er nødvendig for å løse mange av de viktigste utfordringene samfunnet vil møte i dette århundret. Eksempler inkluderer hydrogenproduksjon fra vann og sollys, resirkulering av CO2 til verdifulle produkter og ren produksjon av kjemikalier. Katalysatorer akselererer disse prosessene, og reduserer både energien som kreves og avfallet som genereres. Det finnes en svært stor mengde kjemiske forbindelser som potensielt kan katalysere interessante kjemiske reaksjoner; imidlertid vil bare noen få være aktive, selektive og robuste på det høye nivået som kreves i industrielle applikasjoner. Katalysatorer tilhører ofte en klasse av kjemiske forbindelser kjent som komplekser, der organiske molekyler kombineres med metaller. Foruten katalyse, er metallkomplekser også relevante i energi og medisinske applikasjoner. catLEGOS-prosjektet vil akselerere oppdagelsen av metallkomplekser med nye tilnærminger som kombinerer kvantemekanikk med kunstig intelligens metoder.
catLEGOS-prosjektet vil generere store og komplekse data ved hjelp av beregninger basert på prinsippene for kvantemekanikk. Disse dataene vil bli brukt til å bygge prediktive og generative modeller med maskinlæring metoder. De benyttede metodene vil inkludere dype nevrale nettverk, som er inspirert av den biologiske strukturen i nervesystemet, og genetiske algoritmer, som er inspirert av mekanismene for naturlig evolusjon. De nevrale nettverkene vil muliggjøre hurtig og nøyaktig screening av potensielle katalysatorer og andre metallkomplekser av interesse, ved å identifisere de molekylære fragmentene som utgjør dem. Kombinasjonen av disse fragmentene i nye katalysatorer vil bli undersøkt nærmere med dype generasjon modeller og genetiske algoritmer.
catLEGOS-prosjektet vil også utvikle nye matematiske representasjoner for maskinlæring anvendt på katalyse og metallorganisk kjemi, med fokus på fysiske og kjemiske betydning. Disse representasjonene vil gi midler til å forklare modellens prediksjoner, som vil bli brukt til å konstruere rasjonelle designmodeller for utvikling av nye metallkomplekser, inkludert katalysatorer. For å oppnå disse målene vil prosjektet følge en tverrfaglig tilnærming som kombinerer kjemi med elementer av statistisk teori og informatikk.
In a recent study, we showed that Gaussian processes (GP) can be trained with DFT data for predicting the energy barrier of fundamental reactions in homogeneous catalysis (Balcells et al., Chem. Sci., 2020, 11, 4584). The key advantage of these models is that they achieve high accuracy (MAE of ca. 1 kcal/mol) with small training datasets. The catLEGOS project will take this approach to the next level by developing a recommender system for catalysis based on deep neural networks (DNNRc). The DNNRc will enable catalyst discovery by defining the chemical subspaces explored by the GP, which are otherwise arbitrary. The subspaces will be built with active metal and ligand fragments (molecular Legos) provided by the DNNRc. The catLEGOS project will also expand the tmQM dataset (Balcells et al., J. Chem. Inf. Model., 2020, 60, 6135), adding thermodynamics parameters for ~100k transition metal complexes, and the mNBOg graph, a novel multilayer graph representation based on natural bond orbital analysis. Both deliverables will be used in the development of the DNNRc and GP models, which will be tested in the discovery of catalysts for the water oxidation and CO2 reduction reactions.