The genomic scribe in hyperspace

When I was in school (it must have been in gymnasiet, roughly corresponding to secondary school or high school), I remember giving a presentation on a group project about the human genome project, and using the illiterate copyist analogy. After sequencing the human genome, we are able to blindly copy the text of life; we still need to learn to read it. At this point, I had no clue whatsoever that I would be working in genetics in the future. I certainly felt very clever coming up with that image. I must have read it somewhere.

If it is true that the illiterate scribe is a myth, and they must have had at least some ability to read, that makes the analogy more apt: even in 2003, researchers actually had a fairly good idea of how to read certain aspects of genetics. The genetic code is from 1961, for crying out loud (Yanofsky 2007)!

My classroom moment must have been around 2003, which is the year the ENCODE project started, aiming to do just that: create an encyclopedia (or really, a critical apparatus) of the human genome. It’s still going: a drove of papers from its third phase came out last year, and apparently it’s now in the fourth phase. ENCODE can’t be a project in the usual sense of a planned undertaking with a defined goal, but rather a research programme in the general direction of ”a comprehensive parts list of functional elements in the human genome” (ENCODE FAQ). Along with the phase 3 empirical papers, they published a fun perspective article (The ENCODE Project Consortium et al. 2020).

ENCODE commenced as an ambitious effort to comprehensively annotate the elements in the human genome, such as genes, control elements, and transcript isoforms, and was later expanded to annotate the genomes of several model organisms. Mapping assays identified biochemical activities and thus candidate regulatory elements.

The age means that ENCODE has lived through generations of genomic technologies. Phase 1 was doing functional genomics with microarrays, which now sounds about as quaint as doing it with blots. Nowadays, they have CRISPR-based editing assays and sequencing methods for chromosome 3D structure that just seem to keep adding Cs to their acronyms.

Last time I blogged about the ENCODE project was in 2013 (in Swedish), in connection with the opprobrium about junk DNA. If you care about junk DNA, check out Sean Eddy’s FAQ (Eddy 2012). If you still want to be angry about what percentage of the genome has function, what gene concepts are useful and the relationship between quantitative genetics and genomics, check out this Nature Video. It’s funny, because the video pre-empts some of the conclusions of the perspective article.

The video says: to do many of the potentially useful things we want to do with genomes (like sock cancer in the face, presumably), we need to look at individual differences (”between you, and you, and you”) and how they relate to traits. And an encyclopedia, great as it may be, is not going to capture that.

The perspective says:

It is now apparent that elements that govern transcription, chromatin organization, splicing, and other key aspects of genome control and function are densely encoded in the human genome; however, despite the discovery of many new elements, the annotation of elements that are highly selective for particular cell types or states is lagging behind. For example, very few examples of condition-specific activation or repression of transcriptional control elements are currently annotated in ENCODE. Similarly, information from human fetal tissue, reproductive organs and primary cell types is limited. In addition, although many open chromatin regions have been mapped, the transcription factors that bind to these sequences are largely unknown, and little attention has been devoted to the analysis of repetitive sequences. Finally, although transcript heterogeneity and isoforms have been described in many cell types, full-length transcripts that represent the isoform structure of spliced exons and edits have been described for only a small number of cell types.

That is, the future of genomics is in variation. We want to know about: organismic/developmental background (cell lines vs primary vs induced vs tissue), environmental variation (condition-dependence), genetic variation (gene editing assays that change local genetic variants, the genetic background of different cell line and human genomes), dynamics (time and induction). To put it in plain terms: We need to know how the genome regulation of different cells and individuals are different, and what that does to them. To put it in fancy terms: we are moving towards cellular phenomics, quantitative genomics, and an ever-expanding hypercube of data.

Literature

Eddy, S. R. (2012). The C-value paradox, junk DNA and ENCODE. Current biology, 22(21), R898-R899.

ENCODE Project Consortium, Snyder, M. P., Gingeras, T. R., Moore, J. E., Weng, Z., Gerstein, M. B., Ren, B., … & Myers, R. M. (2020). Perspectives on ENCODE. Nature, 583(7818), 693-698.

Yanofsky, C. (2007). Establishing the triplet nature of the genetic code. Cell, 128(5), 815-818.

Vad är funktion?

Igår påstod jag att när jag skriver ”gen” så menar jag en dna-sekvens med ett namn och en funktion. Befogad fråga: vad sjutton är en funktion? Om det tvistar de lärda med flera, vilket illustreras av debatten om dna-encyklopedin ENCODE. Jag har skrivit lite om det förut, men kortfattat: ENCODE gick ut på att använda olika sekvenseringsbaserade experiment för att hitta de sekvenser i det mänskliga genomet som har någon funktion. Projektet hävdade at en väldigt stor de av genomet, upp till 80%, dök upp i något av experimenten som kopplade till någon biokemisk aktivitet. Deras motståndare svarade att ENCODE använt fel definition av ”funktion”; det viktiga är inte aktivitet utan om den aktiviteten bevarats av naturligt urval.

För det första: en dna-sekvens gör ingenting i sig själv; det är inte det som är frågan. Det intressanta är vad cellen och dess maskineri av biologiskt aktiva proteiner och rna-molekyler gör med en dna-sekvens. Det enklaste är kanske att säga att en sekvens’ funktion är vad cellen gör med den, åtminstone om det sker tillräckligt pålitligt och reproducerbart. Å andra sidan kan en ha en evolutionär syn på funktion, där en sekvens endast har en funktion om den främjats av naturligt urval. Alltså: sekvensen ser ut som den gör och cellen använder den som den gör därför att det på något sätt givit individer som bär den reproduktiv framgång. Dan Graur & co (2013) skrev en mycket arg artikel om ENCODE där de bland annat förespråkar den evolutionära synen på funktion. Artikeln är kanske lite för arg, men det här är ett bra exempel:

In biology, there are two main concepts of function: the “selected effect” and “causal role” concepts of function. /…/ For clarity, let us use the following illustration (Griffiths 2009). There are two almost identical sequences in the genome. The first, TATAAA, has been maintained by natural selection to bind a transcription factor; hence, its selected effect function is to bind this transcription factor. A second sequence has arisen by mutation and, purely by chance, it resembles the first sequence; therefore, it also binds the transcription factor. However, transcription factor binding to the second sequence does not result in transcription, that is, it has no adaptive or maladaptive consequence. Thus, the second sequence has no selected effect function, but its causal role function is to bind a transcription factor.

Jag tror inte att jag förvränger Graur & co:s argument om jag säger att de ser 80%-siffran som en sorts reductio ad absurdum av att prata om funktion som bara vad en dna-sekvens används till. Genomet är stort och fullt med sekvenser som bara av en slump innehåller bindingsställen för olika reglerande proteiner etc. Oavsett om det råkar skrivas av till rna ibland eller binda till transkriptionsfaktorer så är det mesta ändå att betrakta som irrelevant från det naturliga urvalets synpunk. Sedan finns det en del som tycker att skräp-dna låter slarvigt och vulgärt, men det är en fråga om språkbruk, inte om genomets funktion.

Hur vet en då om en sekvens har funktion ur det naturliga urvalets perspektiv? När genomet kopieras drabbas det av slumpvisa mutationer, avskrivningsfel helt enkelt, som ändrar sekvensen här och där. Om mutationen gör att något går sönder och det påverkar individens förmåga att reproducera sig tillräckligt kommer varianten sorteras bort av naturligt urval. Därför är vissa viktiga delar av genomet, framför allt de gener som kodar för proteiner, konserverade. Därför går de också att känna igen mellan arter som är mycket avlägset släkt, även om den omkringliggande icke-kodande sekvensen kan vara helt olika.

Men det är inte självklart att det alltid är funktion-genom-naturligt-urval som är det intressanta. För det första, allt är inte lika väl konserverat som de proteinkodande sekvenserna, så det är inte säkert att alla reglerande sekvenser och nyligen tillkomna gener som är specifika för ett visst släkte kommer gå att hitta med metoder som letar efter konservering. Det finns en risk att missa de absolut senaste intressanta sekvenserna under naturligt urval bara för att det inte finns något att jämföra med. Dessutom är det inte alls säkert att en bara är intresserad av sekvenser som bevaras av naturligt urval. Om en studerar mänsklig sjukdom, till exempel, är det mycket möjligt att de intressanta sekvenserna faktiskt är neutrala i förhållande till naturligt urval. De kan till exempel ha sin effekt sent i livet, efter reproduktiv ålder.

ENCODE, 80% och varför det mesta av skräpet fortfarande är skräp

ENCODE, encyclopedia of DNA elements, är på tapeten igen: det är några som skrivit en rätt elak kritisk artikel. Den är i och för sig open access så att alla kan läsa den, men jag rekommenderar den här i stället: Sean R Eddy, The C-value paradox, junk DNA, and ENCODE. Den är skriven i faq-/katekesform och är mer pedagogisk än Graur & co.

Vad är det då folk är så arga på? Tja, den här lilla filmen sammanfattar hypen kring ENCODE-projektet ganska väl: en gigantisk robot som slår cancer på käften. Och hela genomet är fullt av aktivitet ”even the parts we used to think of as junk”. Suck.

(Själv samlar jag mod för att redigera eller åtminstone diskutera svenska Wikipedias sida som är lika missvisande.)

Å andra sidan: den här artikeln ger en ganska fin sammanfattning av vad projektet egentligen gjorde. Alltså, precis som namnet antyder, är det fråga om en encyklopedi över dna-element i det mänskliga genomet. För ett par andra förträffliga varelser se modENCODE. Det ENCODE (och många andra) mätte var olika typer av aktivitet: olika saker som fäster vid, skriver av eller modifierar dna. Åtminstone en del av resultaten finns tillgängliga i UCSC-genomläsaren så att vi kan titta på vad som försiggår kring våra favoritgener.

Jag har skrivit lite om genetiskt skräp förut: i korthet så är det en väldigt liten del av dna-sekvensen i en stor flercellig organism som faktiskt innehåller instruktioner för några biomolekyler (proteiner och rna). Ytterligare en del innehåller icke-kodande reglerande sekvenser som styr när generna uttrycks. Men lejonparten av genomet är varken eller. Och det är inte bara så att ingen vet vad de gör — många av sekvenerna är tydligt trasiga virussekvenser och andra omflyttningsbara element. Det visar sig att räknar en generöst är det omkring 80% av sekvensen som någon gång skrivs av, interagerar med ett protein eller har vissa modifikationer (som också brukar bäras av dna som används till något). Därmed inte sagt att de gör någon direkt nytta för organismen.

Sean Eddy:

The question that the “junk DNA” concept addresses is not whether these sequences are biochemically “active”, but whether they’re there primarily because they’re useful for the organism. Sequence conservation analyses, including ENCODE’s, consistently indicate that only around 5-20% of the human genome is under detectable selective pressure. Some additional fraction of sequences has probably evolved new human-specific regulatory functions that are not conserved with other closely related species, but ENCODE’s publicized interpretation would require that such nonconserved regulatory sequences account for 80-95% of the genome, far outnumbering evolutionary conserved regulatory sequences. Given the C-value paradox, mutational load, and the massive impact of transposons, the data remain consistent with the view that the nonconserved 80-95% of the human genome is mostly composed of nonfunctional decaying transposons: “junk”.

Litteratur

The ENCODE Project Consortium (2011) A User’s Guide to the Encyclopedia of DNA Elements (ENCODE). PLOS Biology 9 e1001046. doi:10.1371/journal.pbio.1001046

Sean R Eddy (2012) The C-value paradox, junk DNA, and ENCODE (pdf från hans hemsida)

Dan Graur , Yichen Zheng, Nicholas Price, Ricardo B. R. Azevedo, Rebecca A. Zufall, Eran Elhaik. (2013) On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODEGenome Biology and Evolution doi:10.1093/gbe/evt028