WP1. Studien på STR lengde variasjon og hvordan dette påvirker genuttrykk (rapportert som innsendt) i forrige rapport er nå publisert i Plant Cell (Reinar et al. 2021). Dette arbeidet har vakt en del oppmerksomhet. I arabidopsis har vi også nå fullført eksperimentet med å utsette planter for temperaturstress over hele 9 generasjoner. 3 paralleller fra hver generasjon er blitt helgenomsekvensert og resultatene viser at det akkumuleres tandem repeat lengdevariasjon i en større grad ved høy temperatur (enn ved normal temperatur). Vi ser også at lendgevariasjoner er mer frekvente en punktmutasjoner. Dette har implikasjoner for hvordan man kan forstå planters respons til klimaendringer. En artikkel er under utarbeidelse. I torsk har vi undersøkt forholdet mellom STR lengde variasjon i kodende STR og miljøvariabler i Østersjøen (lave salinitet) og Nordsjøen (høy salinitet). Vi finner en rekke gener som viser slik variasjon i proteinkodende sekvens og blant disse er det gener som kan knyttes til transkripsjonsregulering, stressrespons og circadiske rytmer (daglengde, årstider, lys mm). Svær mange av disse kandidatgenene som blir undersøkte videre i WP2 inneholder trinukleotider som koder for aminosyren glutamin.
I WP2 har vi studert gener som har tandem repeats i sin aminosyrekodende sekvens og vist at slike områder i proteinet kan knyttes til områder som ikke har en definert struktur og som kan endre seg som følge av lengdevariasjon. Aminosyrene glutamin og asparagin i slike lendgevariasjoner som igjen er korrelert til miljøforhold. Videre har vi vist eksperimentelt at en transkripsjonsfaktor (TCP14) påvirkes både når det gjelder dens interaksjon med et annet protein og dens evne til å aktivere transkripsjon. Disse resultatene er inder publisering (Reinar et al. 2023, under review). I torsk har vi undersøkt en rekke kandidatgener. Disse genene er enten introdusert i humane cellelinjer, i planter og i en torskecellelinje. Resultatene her vil bli publisert. Vi har også satt i gang eksperimenter hvor vi benytter CRISPR-Cas redigering av tilsvarende gener i medaka.
I WP3 har vi gjennomført en studie av et stort antall genomer som representerer en stor rekke eukaryoter og kan vise at hos de fleste undersøkte arter er det en statistisk signifikant høyere frekvens av enkle tandem repetisjoner rundt transkripsjonsstart. Vi planlegger å publisere dette i første halvdel at 2023.
The outcomes described in the original application ("Expected outcome" for WP1,2 and 3) have all been achieved. I have checked this carefully, and it was mind-blowing to see that all the outcomes had been reached. Actually, we have achieved results beyond the outcomes in the original project description - including that we have been able to functionally test more genes in Arabidopsis having an effect on development and gene regulation than we had anticipated. Furthermore, due to the development in genomics the survey across the Three of Life has become for more comprehensive that we could foresee. We did not describe use of CRISPR-Cas in the application - but this is a reality in the reported project.
The main outcome of the project is that it has shown that simple tandem repeats and their length variation in both non-coding (outside gens) and in coding regions affect gene regulation and protein function and is associated with environmental and biotechnology conditions - and that this has also been demonstrated experimentally for selected genes. The impacts are substantial. First, since the presence of simple tandem repeats inside genes and inter regulatory regions is universal they are likely to affect evolution and adaptations in most organisms. Second, since simple tandem repeat variation accumulate substantially faster than single nucleotide polymorphisms, this overlooked type of mutations needs to be investigated in all future genomics based projects (addressing evolution, behavior, life history traits and adaptations). Third, since short tandem repeat length variation is a type of structural variation in the genome, our results lend support to the growing evidence that structural variation (insertions/deletions, duplications, inversions, recombinations) are crucial for understanding the genotype phenotype enigma. From an applied perspective simple tandem repeat length variations we be crucial in management of local populations and for understanding plant, animal and human disease susceptibility and behavior.
More than 150 years since Darwin published his famous work 'The Origin Of Species' the causal relationship between the genotype (genome) and the phenotype (phenome) is still basically a mystery. In particular, even though the role of natural selection in evolution is widely accepted, we do not understand how changes in the phenotype relate to genetic change and how this may cause adaptation and speciation under natural selection. However, what we do better understand, due to recent whole genome investigations using high throughput sequencing (HTS), is the dynamic nature of genome architectural changes. These include, gene copy numbers, inversions, transposable element dynamics and simple repeat variations. Here we propose to investigate variations in simple trinucleotide repeats residing inside (coding) and in the vicinity (or in introns) of genes. We will relate such length variations to functional modulation of regulatory mechanisms affecting the phenotype. Specifically, we will test the hypothesis that hypervariable coding/regulatory repeats are promoting the ability of a species or population to adapt to a changing environment. The project is cross-disciplinary and will utilize genomic, bioinformatics, statistics and experimental approaches. The goal is to understand how new mechanisms drives genomic architecture and divergence, taking into account fluctuations in the selection regimes. We aim to obtain new fundamental biological insights as well as novel bioinformatics, and statistical methodology.