Domestiseringen av storfe og gris har akselerert de siste tiårene. Dette skyldes at avlsselskaper kan velge ut okser med ønskede observerbare egenskaper (f.eks. vekstrate, fruktbarhet) til inseminering av kyr, i tillegg blir mer kvantitative egenskaper brukt, som melke- og kjøttsammensetning, sykdomsresistens, dyrevelferd og atferd osv. Avlsselskaper bruker i tillegg avanserte metoder for å måle genetiske markører knyttet til ønskede egenskaper som kan brukes til å velge ut dyr til avl. Den mest utbredte metoden for å måle genetiske markører innebærer å måle tusenvis av små variasjoner i DNA kalt punkmutasjoner (SNPs) som til sammen kan brukes til å si noe om et dyrs genetiske verdi.
Dessverre klarer ikke denne veletablerte metoden å fange opp genetisk variasjon i form av strukturelle variasjoner (SV-er). Denne kategorien av genetiske varianter inkluderer store delesjoner, insersjoner eller rearrangeringer av DNA, som kan ha store effekter på et dyrs biologi. I tillegg ble laboratoriemetodene som brukes til å måle SNP-data utviklet på informasjon fra raser som brukes i USA og Storbritannia som mangler genetiske markører spesifikt til norske raser. Enkelt sagt, den unike genetiske sammensetningen til norske grise- og storferaser blir i dag ikke tatt i betraktning når man velger avlsokser for fremtidig bærekraftig dyreproduksjon. CAUSATIVE ønsker å omgå disse begrensningene ved å lage bedre prepresentasjoner av DNA-koden til norske storfe- og griseraser som også inkluderer informasjon om SV-er. Disse dataene vil forbedre nøyaktigheten og presisjonen ved beregning av genetiske verdier basert på SNP-er, gjøre det mulig for oppdrettere å inkludere kunnskap om SV-er i sine vurderinger (noe som har blitt helt utelatt til nå), samt å få en bedre forståelse om hvordan et dyrs DNA-kode påvirker biologi og helse.
Vi startet prosjektet med innsamling av biologiske prøver fra 15 råner (Landrace) og 17 okser (Norsk Rødt Fe; NRF) som viste liten grad av slektskap, og til sammen representerer et genetisk tverrsnitt av rasene. DNA ble først renset, før det ble fragmentert og overført fra genetisk kode til datakode ved hjelp av «long-read»-sekvenseringsteknologi. Ved hjelp av et «datamaskin-cluster» satte vi sammen de 2,5 billiard tegnene av kode til flere kontinuerlige DNA-sekvenser som representerer kromosomer fra hvert individ.
Fra to av dyrene, én okse og én råne, ble det laget ekstra mye sekvensdata for å kunne produsere refereansegenomer av ekstra høy kvalitet uten noen informasjonshull. Dette inkluderte 90 millioner base (Mb) av ny sekvens for landsvin og 136 Mb i NRF som gjorde at vi kunne plassere hundrevis av tidligere manglede eller feilplasserte gener fra de amerikanske og britiske rreferansegenomene. En omfattende analyse av innholdet av sentromer- og telomersekvens (sekvens som er vanskelig å sette sammen i midten og endene av kromosomene) viste at de nye referansegenomene er uten informasjonshull og nesten helt komplette med unntak av noen få manglende sekvenser i kromosomendene.
Disse referansene (som er offentlig tilgjengelige og snart beskrevet i vitenskapelige tidsskrifter) er et godt grunnlag for å bygge genomgrafer (også kjent som pan-genomer). Den største fordelen med en genomgraf, sammenlignet med et lineært referansegenom, er at den representerer genomer fra flere individer og inkluderer genetiske variasjon, noe som gir en mer realistisk fremstilling av en rase eller populasjon. Denne komplekse, men nøyaktige, representasjonen av genomer øker i popularitet blant avlsselskaper globalt. Vårt unike datasett og perspektiver på norske raser har ført til at vi har blitt bidragsytere og deltakere i internasjonale initiativer for både storfe- og svine-pan-genomer.
Ved bruk av disse genomgrafene var vi i stand til å avdekke over 70 000 tidligere uidentifiserte SV-er i NRF og over 100 000 i Landrace. En betydelig andel av disse (1/3 til 1/2) forekommer innenfor genregioner, som antyder at de kan ha en påvirkning på genuttrykk og dermed egenskaper. Våre estimater antyder at disse listene inkluderer de fleste av vanligste SV-ene i disse rasene, og at videre sekvensering vil avsløre flere sjeldne varianter.
Genomgrafer brukes nå til å re-analysere eksisterende sekvensdata fra mange hundre dyr fra prosjektpartnere. Med en representasjon av genomene fra NRF og Landrace av høy kvalitet, og omfattende liste over SNP (nesten 20M) og SV-varianter (nesten 200K), begynner vi nå prosessen med å forutsi (imputere) SV-er og SNP-er i mange hundre tusen individer med lavoppløselig (men høy nøyaktighet) av SNP-informasjon. Resultatene fra imputeringen vil bli brukt i den gjenværende prosjektperioden for å lete etter sammenhenger mellom SV-er og egenskaper knyttet til bærekraft.
For centuries, farmers bred superior livestock by observing how particular individuals, or their offspring, perform in terms of growth, fertility etc. In recent decades, the challenge of producing superior animals has been addressed by breeding companies by implementing elaborate systems to methodically record production traits. By considering this information within a known pedigree structure, it was possible to ensure that animals with superior potential were maintained and used for breeding. This success is based on the fact that genetic variation explains (to varying degree) trait variation. Over the last 10 years, breeding companies have transitioned towards genetic testing as a strategy to measure individual genetic variation with unprecedented accuracy; so called SNP genotyping. Combined with extensive measurement recordings and classical methodology this has allowed them to significantly improve multiple traits simultaneously, and today thousands of cattle and pigs are genetically tested each year and their genetic value calculated. Unfortunately the entire approach is founded on testing one specific type of genetic variation and disregards the important class structural variants (SVs) present in all genome. Moreover, all analysis is founded on a gold-standard reference genome representing a single individual from non-Norwegian breeds. In CAUSATIVE, scientists at NMBU and from Norwegian breeding companies (Geno and Norsvin) will use state-of-the-art sequencing and bioinformatic tools to build novel reference genomes for Norwegian breeds that capture all structural variations present in the population. Breeding companies will use these resources to improve their ability to calculate breeding values and to find ways to select for SVs that until now have been invisible in SNP genotyping data. Finally, we will use our new understanding of genome architecture to identify SVs associated with increasing sustainable production.