Selected, causal, and relevant

What is ”function”? In discussions about junk DNA people often make the distinction between ”selected effects” and ”causal roles”. Doolittle & Brunet (2017) put it like this:

By the first (selected effect, or SE), the function(s) of trait T is that (those) of its effects E that was (were) selected for in previous generations. They explain why T is there. … [A]ny claim for an SE trait has an etiological justification, invoking a history of selection for its current effect.


ENCODE assumed that measurable effects of various kinds—being transcribed, having putative transcription factor binding sites, exhibiting (as chromatin) DNase hypersensitivity or histone modifications, being methylated or interacting three-dimensionally with other sites — are functions prima facie, thus embracing the second sort of definition of function, which philosophers call causal role …

In other words, their argument goes: a DNA sequence can be without a selected effect while it has, potentially several, causal roles. Therefore, junk DNA isn’t dead.

Two things about these ideas:

First, if we want to know the fraction of the genome that is functional, we’d like to talk about positions in some reference genome, but the selected effect definition really only works for alleles. Positions aren’t adaptive, but alleles can be. They use the word ”trait”, but we can think of an allele as a trait (with really simple genetics — its genetic basis its presence or absence in the genome).

Also, unfortunately for us, selection doesn’t act on alleles in isolation; there is linked selection, where alleles can be affected by selection without causally contributing anything to the adaptive trait. In fact, they may counteract the adaptive trait. It stands to reason that linked variants are not functional in the selected effect sense, but they complicate analysis of recent adaptation.

The authors note that there is a problem with alleles that have not seen positive selection, but only purifying selection (that could happen in constructive neutral evolution, which is when something becomes indispensable through a series of neutral or deleterious substitutions). Imagine a sequence where most mutations are neutral, but deleterious mutations can happen rarely. A realistic example could be the causal mutation for Freidreich’s ataxia: microsatellite repeats in an intron that occasionally expand enough to prevent transcription (Bidichandani et al. 1998, Ohshima et al. 1998; I recently read about it in Nessa Carey’s ”Junk DNA”). In such cases, selection does not preserve any function of the microsatellite. That a thing can break in a dangerous way is not enough to know that it was useful when whole.

Second, these distinctions may be relevant to the junk DNA debate, but for any research into the genetic basis of traits currently or in the future, such as medical genetics or breeding, neither of these perspectives is what we need. The question is not what parts of the genome come from adaptive alleles, nor what parts of the genome have causal roles. The question is what parts of the genome have causal roles that are relevant to the traits we care about.

The same example is relevant. It seems like the Friedriech’s ataxia-associated microsatellite does not fulfill the selected effect criterion. It does, however, have a causal role, and a causal role relevant to human disease, at that.

I do not dare to guess whether the set of sequences with causal roles relevant to human health is bigger or smaller than the set of sequences with selected effects. But they are not identical. And I will dare to guess that the relevant set, like the selected effect set, is a small fraction of the genome.


Doolittle, W. Ford, and Tyler DP Brunet. ”On causal roles and selected effects: our genome is mostly junk.” BMC biology 15.1 (2017): 116.

Nessa Carey ”Junk DNA”

I read two popular science books over Christmas. The other one was in Swedish, so I’ll do that in Swedish.

Nessa Carey’s ”Junk DNA: A Journey Through the Dark Matter of the Genome” is about noncoding DNA in the human genome. ”Coding” in this context means that it serves as template for proteins. ”Noncoding” is all the rest of the genome, 98% or so.

The book is full of fun molecular genetics: X-inactivation, rather in-depth discussion of telomeres and centromeres, the mechanism of noncoding microsatellite disease mutations, splicing — some of which isn’t often discussed at such length and clarity. It gives the reader a good look at how messy genomics can be. It has wonderful metaphors — two baseball bats with magnetic paint and velcro, for example. It even has an amusing account of the ENCODE debate. I wonder if it’s true that evolutionary biologists are more emotional than other biologists?

But it really suffers from the framing as a story about how noncoding DNA used to be dismissed as pointless, and now, surprisingly, turns out to have regulatory functions. This makes me a bit hesitant to recommend the book; you may come away from reading it with a lot of neat details, but misled about the big picture. In particular, you may believe a false history of all this was thought to be junk; look how wrong they were in the 70s, and the very dubious view that most of the human genome is important for our health.

On the first page of the book, junk DNA is defined like this:

Anything that doesn’t code for protein will be described as junk, as it originally was in the old days (second half of the twentieth century). Purists will scream, and that’s OK.

We should scream, or at least shake our heads, because this definition leads, for example, to describing ribosomes and transfer-RNA as ”junk” (chapter 11), even if both of them have been known to be noncoding and functional since at least the 60s. I guess the term ”junk” sticks, and that is why the book uses it, and why biologists love to argue about it. You couldn’t call the book something unspeakably dry like ”Noncoding DNA”.

So, this is a fun a popular science book about genomics. Read it, but keep in mind that if you want to define ”junk DNA” for any other purpose than to immediately shoot it down, it should be something like this:

For most of the 50 years since Ohno’s article, many of us accepted that most of our genome is ”junk”, by which we would loosely have meant DNA that is neither protein-coding nor involved in regulating the expression of DNA that is. (Doolittle & Brunet 2017)

The point of the term is not to dismiss everything that is not coding for a protein. The point is that the bulk of DNA in the genome is neither protein coding nor regulatory. This is part of why molecular genetics is so tricky: it is hard to find the important parts among all the rest. Researchers have become much better at sifting through the noncoding parts of the genome to find the sequences that are interesting and useful. Think of lots of tricky puzzles being solved, rather than of a paradigm being overthrown by revolution.


Carey, Nessa. (2015) Junk DNA: A Journey Through the Dark Matter of the Genome. Icon Books, London.

Doolittle, W. Ford, and Tyler DP Brunet. (2017) ”On causal roles and selected effects: our genome is mostly junk.” BMC Biology.

ENCODE, 80% och varför det mesta av skräpet fortfarande är skräp

ENCODE, encyclopedia of DNA elements, är på tapeten igen: det är några som skrivit en rätt elak kritisk artikel. Den är i och för sig open access så att alla kan läsa den, men jag rekommenderar den här i stället: Sean R Eddy, The C-value paradox, junk DNA, and ENCODE. Den är skriven i faq-/katekesform och är mer pedagogisk än Graur & co.

Vad är det då folk är så arga på? Tja, den här lilla filmen sammanfattar hypen kring ENCODE-projektet ganska väl: en gigantisk robot som slår cancer på käften. Och hela genomet är fullt av aktivitet ”even the parts we used to think of as junk”. Suck.

(Själv samlar jag mod för att redigera eller åtminstone diskutera svenska Wikipedias sida som är lika missvisande.)

Å andra sidan: den här artikeln ger en ganska fin sammanfattning av vad projektet egentligen gjorde. Alltså, precis som namnet antyder, är det fråga om en encyklopedi över dna-element i det mänskliga genomet. För ett par andra förträffliga varelser se modENCODE. Det ENCODE (och många andra) mätte var olika typer av aktivitet: olika saker som fäster vid, skriver av eller modifierar dna. Åtminstone en del av resultaten finns tillgängliga i UCSC-genomläsaren så att vi kan titta på vad som försiggår kring våra favoritgener.

Jag har skrivit lite om genetiskt skräp förut: i korthet så är det en väldigt liten del av dna-sekvensen i en stor flercellig organism som faktiskt innehåller instruktioner för några biomolekyler (proteiner och rna). Ytterligare en del innehåller icke-kodande reglerande sekvenser som styr när generna uttrycks. Men lejonparten av genomet är varken eller. Och det är inte bara så att ingen vet vad de gör — många av sekvenerna är tydligt trasiga virussekvenser och andra omflyttningsbara element. Det visar sig att räknar en generöst är det omkring 80% av sekvensen som någon gång skrivs av, interagerar med ett protein eller har vissa modifikationer (som också brukar bäras av dna som används till något). Därmed inte sagt att de gör någon direkt nytta för organismen.

Sean Eddy:

The question that the “junk DNA” concept addresses is not whether these sequences are biochemically “active”, but whether they’re there primarily because they’re useful for the organism. Sequence conservation analyses, including ENCODE’s, consistently indicate that only around 5-20% of the human genome is under detectable selective pressure. Some additional fraction of sequences has probably evolved new human-specific regulatory functions that are not conserved with other closely related species, but ENCODE’s publicized interpretation would require that such nonconserved regulatory sequences account for 80-95% of the genome, far outnumbering evolutionary conserved regulatory sequences. Given the C-value paradox, mutational load, and the massive impact of transposons, the data remain consistent with the view that the nonconserved 80-95% of the human genome is mostly composed of nonfunctional decaying transposons: “junk”.


The ENCODE Project Consortium (2011) A User’s Guide to the Encyclopedia of DNA Elements (ENCODE). PLOS Biology 9 e1001046. doi:10.1371/journal.pbio.1001046

Sean R Eddy (2012) The C-value paradox, junk DNA, and ENCODE (pdf från hans hemsida)

Dan Graur , Yichen Zheng, Nicholas Price, Ricardo B. R. Azevedo, Rebecca A. Zufall, Eran Elhaik. (2013) On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODEGenome Biology and Evolution doi:10.1093/gbe/evt028

Något om genetiskt skräp och evolution

Hört talas om skräp-DNA någon gång? Uttrycket kommer sig av att lejonparten av genomet inte verkar koda för något — varken proteiner eller RNA-molekyler. Det myntades någon gång på sjuttiotalet, men är rätt ute numera. Artiklar om icke-kodande DNA tenderar ha någon mening i inledningen om hur okunniga de var på sjuttiotalet. Det är klart, det klingar kanske lite arrogant att avfärda större delen av genomet som skräp. Men det ligger ändå fortfarande något i det, även om det dyker upp fler icke-kodande sekvenser med kända funktioner.

För det är skillnad på funktion och funktion, och många av de här sekvenserna gör saker som inte är ett dugg konstruktiva för organismen. Vi har mött dem tidigare: transposonerna och (som det heter i Karolinskas hemska översättning) de andra omflyttningsbara DNA-segmenten. De fungerar som en sort parasiter: det enda de kan är att kopiera sig själva och flyttar sig omkring i genomet. Det gör att de kan bli fler och fler på organismens bekostnad. Det vill säga, en del längre varianter, som verkar stamma från retrovirus, har den förmågan — och kodar för omvänt transkriptas. Det finns också kortare varianter som förmodligen uppstått genom att olika oskyldiga RNA-molekyler skrivits om till DNA med hjälp av omvänt transkriptas från en längre retrotransposon.

Vi behöver inte vara medicinska genetiker för att räkna ut att diverse osorterade DNA-sekvenser som sättes in här och där i genomet kan ställa till problem — till exempel genom att störa regleringen av någon viktig gen. Å andra sidan öppnar samma process för nya intressanta mutationer. Organismen gör å sin sida sitt bästa för att hålla de omflyttningsbara elementen i schack. Epigenetisk reglering är, som sagt, en möjlighet.

Det vanligaste parasitiska elementet hos oss människor heter Alu. Det är en av de kortare varianterna, stammar från ett RNA, saknar förmågan att kopiera sig själv, men innehåller en del andra intressanta sekvenser. Den har ett ställe där retinolsyrareceptorn kan binda — vilket gör att en Alu-insättning skulle kunna koppla en gen till vitamin A. Men i det här sammanhanget gäller det en koppling till en annan process: RNA-splitsling (splicing).

Hos oss eukaryoter ligger de kodande delarna av generna utspridda lite här och där. De kodande bitarna kallas exoner, och de icke-kodande bitarna emellan introner. När en gen ska uttryckas skrivs den först om till ett långt RNA med både introner och exoner. Sedan klipps intronerna bort och exonerna sätts ihop till det ett fullständigt mRNA. Det är alltså splitsningen, och den styrs av signalsekvenser.

Men, mycket riktigt, Alu innehåller sekvenser som liknar splitsningssignalerna! Det betyder att Alu-bitar, men några små förändringar, kan leta sig in i mRNA. Vi återkommer till vad de skulle kunna göra där. Först: artikeln — Widespread establishment and regulatory impact of Alu exons in human genes (det är en open access-artikel, så det är bara att hugga in) av Shihao Shen m. fl., som kom ut i Proceedings of the National Academy of Sciences of the USA i februari.

Det är ett till att börja med ett sekvenseringsbaserat arbete, men det är inte DNA-sekvensering utan RNA-sekvensering som gäller. Det betyder alltså att använda massivt parallell sekvensering på cDNA istället för genom-DNA. Det är dels ett sätt att mäta genuttryck — genom att bara räkna hur många gånger en viss mRNA-sekvens dyker upp. Men det är också att sätt att titta på RNA-molekylernas sammansättning, alltså ett utmärkt sätt att se ifall Alu-sekvenser förekommer i mRNA eller inte.

Med en genomdatabas hjälp ställde de sig frågan: Om kända Alu-sekvenser splitsades in, hur skulle skarven mellan Alu och resten av mRNA:t se ut — och sedan letade de efter de skarvarna i ett par publicerade samlingar RNA-sekvenseringsdata från människa.

De tittade efter total 627 Alu-exoner, varav 287 förekom i proverna mRNA. Det är alltså 627 Alu-sekvenser i gener som någon har sett förut, men bara 287 som användes i den här vävnaden — lillhjärnan, cerebellum. Det illustrerar att även för en så väl beskriven organism som människan, där det finns en bra referenssekvens och massor av information om vilka sekvenser som uttrycks, har den samlade biologiska vetenskapen ganska dålig koll på vad som försiggår.

(Förresten, om vi skulle välja en annan teknik som vi behandlat tidigare till att kontrollera resultaten av sökningen i RNA-sekvenser? Rätt gissat, RT-PCR, vilket är precis vad Shen & co också gjorde.)

Nåväl. Det sitter alltså Alu-sekvenser i ett gäng mänskliga gener. Vad är det med det? Jo, en ny bit mRNA, särskilt i början av genen, kan ändra hur mycket protein som produceras från RNA. Att mäta mRNA är en sak, men att få reda på hur mycket protein som produceras är lite knivigare. Det Shen & co gjorde var en teknik med cellodling och reportergener. En reportergen är en gen som är lätt att detektera — det brukar vara ett protein som fluorescererar eller på något annat sätt ger lysande eller färgade celler.

Reportergenen kopplas ihop med den reglerande sekvensen som ska testas. Mängden protein från reportergenen kan mätas som ljus från cellerna och det återspeglar den reglerande sekvensens effektivitet. Nåväl, det fina med det här är att det går att testa olika varianter av sekvensen, genom att införa olika ändringar. Av 15 gener som de prövade var det 10 där Alu-sekvensen verkade göra någon skillnad. En Alu-sekvens i början av mRNA kan alltså göra skillnad. Lite experimenterande med extra stoppkodoner tyder dessutom på att de gör det genom att skapa extra läsramar som börjar i Alu-exonen och tävlar med den kodande genens läsram.

De la också märke till att påfallande många av generna med Alu-exoner tillhörde ZNF-familjen, en serie transkriptionsfaktorer, gener som i sin tur reglerar uttrycket av andra gener. Den här familjen innehåller ett gäng gener som är specifika för primater och som har uttryck som skiljer sig mellan schimpanser och människor. Det är inte direkt några vattentäta bevis, men åtminstone en suggestiv antydan att de där små bitarna av eländigt skräp skulle ha en del i skillanden mellan oss och andra stora apor.

Hur som helst, det här är ett exempel på vad återanvänt genetiskt material kan åstadkomma. Det händer betydligt större — och konstigare saker — under evolutionens gång än enstaka ändrade baser.


Shen S, Lin L, Cal JJ, Jiang P, Kenkel EJ, Stroik MR, Sato S, Davidson BL, Xing Y. (2011) Widespread establishment and regulatory impact of Alu exons in human genes. PNAS 108 ss. 2837-2842