På dna-dagen: dna-metaforer

Det finns olika metaforer för deoxyribonukleinsyran och vad den betyder för oss. Dna kan vara en ritning, ett recept, ett program eller skrift.

Det är nästan omöjligt att säga något om molekylärgenetik utan metaforer. Med kvantitativ genetik går det lite lättare, i all fall tills de statistiska modellerna och beräkningarna kommer fram. Kvantitativ genetik handlar om saker som alla kan se i vardagen, som familjelikhet och släktskap. Molekylärgenetik handlar om saker som, i och för sig finns i det allmäna medvetandet, men inte syns omkring oss.

Men metaforer kan vara ohjälpsamma och leda tanken fel. Bilden av dna som en ritning av organismen kan verka för enkel och leda tanken till genetisk determinism. Nu vet jag, trots att jag ska föreställa ingenjör, inte mycket om ritningar. På flera sätt är det inte så tokigt: en ritning representerar det som ska byggas med ett specialiserat bildspråk i en lägre dimension. Ett hus är i 3D, men en ritning i 2D. Proteiner är tredimensionella; den genetiska koden beskriver dem i en dimension. Men det kanske är sant att ordet ”ritning” (eller ”blåkopia”) för tanken till något som är för exakt och för avbildande.

Ett alternativ är att dna är ett recept (det är många som föreslagit det; bland annat Richard Dawkins i The Blind Watchmaker, 1986). Receptet har den fördelen att det beskriver en process med både ingredienser och instruktioner. Det är lite som organismens utveckling från ett befruktat ägg till en vuxen. ”Tillsätt maternell bicoid i ena änden och nanos i andra änden; låt proteinerna blandas fritt”, och så vidare (Gilbert 2000). En annan fördel är att det naturligt påminner om att dna inte är allt. Samma recept med lokala skillnader i ingredienser och improvisationer från den som lagar blir olika anrättningar. Å andra sidan överdriver receptet vad som finns i dna. Vilka gener som uttrycks var och när är ett samspel av dna och de proteiner och rna som redan finns i en cell vid en viss tidpunkt.

Eller så är dna ett program. Program är också instruktioner, så det har samma fördelar och nackdelar som receptet på den punkten. Å andra sidan är program abstrakta och fria från konkreta ingredienser och associationer till matlagning. Lite som en ritning låter det mekaniskt och exakt. Det spelar tydligt också roll vad dna skulle vara en ritning av eller ett recept på. Det är viss skillnad att kalla dna en ritning av proteiner än ett recept på en organism.

Till sist finns det metaforer inskrivna i själva terminologin. När genetiker pratar om dna, hur det förs vidare och används, pratar vi om det som ett skriftspråk. Det kallas kopiering när dna reproduceras när celler ska dela sig. Det kallas transkription, alltså kopiering men med en ton av överföring till en annan form eller ett annat medium, när rna produceras från dna. Det kallas translation, översättning, när rna i sin tur fungerar som mall för proteinsyntes. Till råga på allt skriver vi dna med ett alfabet på fyra bokstäver: A, C, T, G. Det är en bild som är så passande att den nästan är sann.

(Den 25 april 1953 publicerades artiklarna som presenterade dna-molekylens struktur. Därav dna-dagen. Gamla dna-dagsposter: Genetik utan dna (2016), Gener, orsak och verkan (2015), På dna-dagen (2014))

Undervisning: Molekylärgenetik

NBIC45 utgår! Leve NBIC52! Den senaste varianten av molekylärgenetikkursen har just börjat. Nu var det inte tänkt att jag skulle undervisa något i år, men jag hoppar in som ställföreträdande skägg. Så läraruppställningen ändras lite mindre än det var tänkt från början.

Provrörsställ, rör, lösningar, pipetter och blåsippor som inte har med saken att göra.

Laborationerna, där en kan träffa mig, handlar om nöjsamma saker som genotypning med polymeraskedjereaktionen och att transformera bakterier med plasmider. Och att tolka inte alltid helt tydliga band på geler, samt stå i kö till centrifugen. Jag tycker det är rätt roligt. Att stå i kö till centrifugen är kanske inte det roligaste i världen. Men alla som arbetat i ett molekylärt laboratorium kan intyga att det i alla fall är realistiskt.

Jag har skrivit (och twittrat) något om innehållet i labbarna förut.

På dna-dagen: Gener, orsak och verkan

”DNA, livets molekyl” … Visst, DNA är en viktig och snygg biomolekyl. Men varför skulle inte en komplex kolhydrat, ett protein eller en membranlipid förtjäna det namnet?

Det finns två perspektiv på genetik som jag brukar tjata om. Å ena sidan: genetik som handlar om vad molekylära gener gör och vad de har för funktion. Å andra sidan: genetik som är studiet av ärftliga skillnader mellan individer, och i förlängningen populationer och arter. Genetik beskrivs ibland som en vetenskap som handlar om ”koder” och ”information”. Det ligger något i det, men jag tror det är bra att vara lite försiktig med metaforerna. Jag misstänker att koder och information inte är något vi bara hittar liggande ute i naturen, så att säga, utan mänskliga tolkningar.

Ja, vissa DNA-sekvenser skrivs av till mRNA som kodar för proteiner. Här betyder ”kodar för” att sekvensen har tripletter av baser som är komplementära mot tRNA-molekyler som bär aminosyror. Andra sekvenser motsvarar RNA-molekyler som har någon annan funktion. Men de orsakande faktorerna till att ett visst RNA uttrycks vid en viss tid finns inte i DNA, utan någon annan stans. DNA är en del av mekanismen, men det är också RNA-polymeraset som skriver av det, spliceosomen som sätter ihop aktivt mRNA, de system av enzymer som tillverkar nukleotiderna och så vidare, och så vidare. Processen aktiveras av vad som händer i organismens miljö, interna processer som omfattar många delar av cellen eller helt olika delar av kroppen osv. På så sätt är kärnan med sitt DNA en organell vilken som helst.

Men! Det finns ett sammanhang där det är befogat att prata om genetiska orsaker, nämligen ärftliga skillnader mellan individer. Det går att hitta (och faktiskt konstruera) exempel på individer där dramatiska skillnader i egenskaper som utseende och beteende beror på en skillnad i DNA-sekvens — en genetisk variant eller ”gen” i den klassiska bemärkelsen. Det förstås, det kan finnas andra typer av ärftlighet som inte beror på DNA, och i så fall borde de också räknas med här. Men de flesta saker som inuti celler kan göra skillnad i en organisms egenskaper — proteiner, membranlipider, kolhydrater, små organiska molekyler osv — nollställs mellan generationerna, när könsceller bildas och utvecklingen så att säga börjar om varje generation. Men DNA går i arv — med sin ”information”, om en så vill.

(Den 25 april 1953 publicerades artiklarna som presenterade DNA-molekylens struktur. Därav DNA-dagen. Min DNA-dagspost från förra året: På dna-dagen)

Morning coffee: cost per genome

I recently heard this thing referred to as ”the most overused slide in genomics” (David Klevebring). It might be: what it shows is some estimate of the cost of sequencing a human genome over time, and how it plummets around 2008. Before that, the curve is Sanger sequencing, and then the costs show second generation sequencing (454, Illumina and SOLiD).

cost_genome

The source is the US National Human Genome Research Institute, and they’ve put some thought into how to estimate costs so that machines, reagents, analysis and people to do the work are included and that the different platforms are somewhat comparable. One must first point out that downstream analysis to make any sense of the data (assembly and variant calling) isn’t included. But the most important thing that this graph hides, even if the estimates of the cost would be perfect, is that to ”sequence a genome” means something completely different in 2001 and 2015. (Well, with third generation sequencers that give long reads coming up, the old meaning might come back.)

For data since January 2008 (representing data generated using ‘second-generation’ sequencing platforms), the ”Cost per Genome” graph reflects projects involving the ‘re-sequencing’ of the human genome, where an available reference human genome sequence is available to serve as a backbone for downstream data analyses.

The human genome project was of course about sequencing and assembling the genome into high quality sequences. Very few of the millions of human genomes resequenced since are anywhere close. As people in the sequencing loop know, resequencing with short reads doesn’t give you a genome sequence (and neither does trying to assemble a messy eukaryote genome with short reads only). It gives you a list of variants compared to the reference sequence. The usual short read business has no way of detect anything but single nucleotide variants and small indels. (And the latter depends … Also, you can detect copy number variants, but large scale structural variants are mostly off the table.) Of course, you can use these edits to reconstruct a consensus sequence from the reference, but it would be a total lie.

Again, none of this is news for people who deal with sequencing, and I’m not knocking second-generation sequencing. It’s very useful and has made a lot of new things possible. It’s just something I think about every time I see that slide.

På dna-dagen

Idag är det tydligen dna-dagen enligt någon; det är i alla fall roligare än kanelbullens dag. Den 25 april 1953 var dagen då artiklarna (Watson & Crick 1953; Franklin & Gosling 1953; Wilkins, Stokes & Wilson 1953) om dna-molekylens struktur publicerades, och dagen då en typ 150-årig jakt på arvsanlagens molekylära natur på något sätt kulminerade. Från äckligt var från något sår till dna-sekvenser, typ. Alla har sett någon bild på dna-strängen, så jag väljer medvetet att inte visa någon sådan. Istället tänkte jag skriva några rader om dna som kod, en vanlig metafor som både är bra och dålig.

Deoxyribonukleinsyra (dna) är en uppbyggt av en ryggrad av deoxyribos samt olika kombinationer av fyra kvävebaser (adenosin, tymin, guanidin och cytosin; de förkortas med sin begynnelsebokstav som A, T, G och C). De kan kombineras i olika ordning och det är följden av A, T, G och C som bildar den dna-sekvens som lagrar biologisk information. En normal dna-molekyl består av två strängar som löper i motsatt riktning. Baserna bildar par där G kombineras med C och A med T. Båda strängarna lagrar alltså samma information men i motsatt och, som det kallas, komplementär riktning.

Sedan bildar dna-molekyler kromosomer: en kromosom är en lång dna-molekyl upplindad på proteiner. Vi diploida organismer har två uppsättningar av våra kromosomer: en från mamma och en från pappa. Genomet är den sammanlagda sekvensen från en uppsättning av alla kromosomer. När en pratar om det mänskliga genomet menar en den mänskliga referenssekvensen, som är ett exempel på hur en uppsättning kromosomer kan se ut. Det finns naturligtvis genetisk variation mellan indiver. Ta till exempel följande bit från människans kromosom 1:

>1 dna:chromosome chromosome:GRCh37:1:11013:12345:1
GGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGCACGGCGCCGGGCTGGGGCGGGG
GGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCGCGGCGCAGAGACGGG
TAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGGCACTA
CAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACT
GCAGGGCTCTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAG
GGCCCTCTTGCTTACTGTATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCA
GGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTG
CCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCT
GTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATA
TGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATG
TCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGG
TGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTT
AAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCC
GGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATT
CACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTC
ATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGA
GGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCT
GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCAT
GCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAA
TACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTC
TCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCG
GCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCG
GGCTGTGACTGCT

Men om jag intresserade mig för den här sekvensen skulle jag antagligen betrakta den på en ännu högre abstraktionsnivå, ungefär såhär. Detta är en bild från genomläsaren Ensembl. Detaljerna är inte så viktiga; poängen med den här illustrationen är att genetiken till stor del abstraherar bort den underliggande biokemin. Vi betraktar inte dna-sekvensen direkt, utan med olika bekvämare representationer av dna-sekvensen.

ensembl_human_chr1

Ibland pratar en om den genetiska koden. Med det uttrycket avses inte hela genomet, utan de ungefär 2% som specificerar sekvensen för proteiner. Det är nämligen så att vissa dna-sekvenser, proteinkodande gener, följer en viss kod som motsvarar en sekvens av aminosyror. Aminosyror, i sin tur, bygger upp proteiner, som är biologiskt aktiva stora organiska molekyler som gör saker i celler och kroppar. Proteiner kan vara enzymer som katalyserar olika reaktioner, transportproteiner som flyttar molekyler fram och tillbaka, strukturella proteiner som bygger upp vävnader etc etc. Den genetiska koden, som det kallas, betsår av tripletter av baser, där en tre baser motsvarar en aminosyra. ATG till exempel, motsvara aminosyran metionin samt även startsignalen för att bygga ett protein. TTT motsvarar fenylalanin, GTA valin och så vidare. TAA, TAG eller TGA innebär att den kodande genen är slut och att proteinsekvensen är färdig.

Men det finns andra dna-sekvenser som har andra funktioner än att koda för proteiner. De är svårare att beskriva och hantera, för deras kod är inte lika regelbunden och lätthanterlig som den genetiska koden, men de är ändå viktiga. Till exempel finns det dna-sekvenser som reglerar när och hur mycket olika delar av kroppen kommer använda proteinkodande gener till att faktiskt tillverka proteiner.

Majoriteten av genomet består inte av gener, utan av diverse jox som inte fyller någon direkt funktion. Spaghettikod är ett skällsord som programmerare ibland använder för kod som är svår att överblicka, förvirrande, och som när den körs kommer hoppa hit och dit. Om det mänskliga genomet ska beskrivas som kod är det förmodligen någon sorts spaghettikod. Jag tänkte länge att ett datorprogram är en fruktansvärt dålig metafor för ett genom, eftersom programkod är konstruerad av mänskliga medvetanden som har en plan. Men mina vänner som arbetar med programmering har övertygat mig om att ett tillräckligt stort mjukvaruprojekt med många inblandade ibland utvecklas lite som ett genom, med en kombination av slumpvisa händelser och naturligt urval, inte bara som en process av rationell design.

Paper: ”Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens”

Since I love author blog posts about papers, I thought I’d write a little about papers I’ve contributed too. So far, they’re not that many, but maybe it can be a habit.

Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens” was published in BMC Genomics in 2012. The title says it very well: the paper looks at differential expression and DNA methylation of a subset of genes in the hypothalamus of Red Junglefowl and domestic White Leghorn chickens. My contribution was during my MSc project in the group. Previously (Lindqvist & al 2007; Nätt & al 2009) Daniel Nätt, Pelle Jensen and others found a transgenerational effect of unpredictable light stress on domestic chickens. After that, and being interested in chicken domestication, a DNA methylation comparison of wild and domestic seems like a natural thing to do. And it turns out Red Junglefowl and White Leghorns differ in expression of a bunch of genes and in methylation of certain promoters (where promoter is operationally defined as a region around the start of the gene model). And when looking at two generations, the contrasts are correlated between parent and offspring. There is some heritable basis of the differences in gene expression and  DNA methylation.

In Red Junglefowl, ancestor of domestic chickens, gene expression and methylation profiles in thalamus/hypothalamus differed substantially from that of a domesticated egg laying breed. Expression as well as methylation differences were largely maintained in the offspring, demonstrating reliable inheritance of epigenetic variation.

What I did was methylation sensitive high resolution melting. HRM is a typing method based on real time PCR. After PCR you often make a melting curve by ramping up the temperature, denaturing the PCR product. The melting characteristics depend on the sequence, so you can use melting to check that you get the expected PCR product, and it turns out that the difference can be big enough to type SNPs. And if you can type SNPs, you can analyse DNA methylation. So we treat the DNA with bisulfite, which deaminates cytosines to uracil unless they are protected by methylation, and get a converted sequence where an unmethylated C is like a C>T SNP. We set up standard curves with a mixture of whole-genome amplified and in vitro methylated DNA and measured the degree of methylation.

That is averaging over the population of DNA molecules in the sample; I’ve been wondering how HRM performs when the CpGs in the amplicon have heterogenous methylation differences. We’ve used HRM for genotyping as well, and it works, but we’ve switched to pyrosequencing, which gives cleaner results and where the assay design is much easier to get right the first time. I don’t know whether the same applies for methylation analysis with pyro.

heritability_methylation_fig4b

My favourite part of the paper is figure 4b (licence: cc:by 2.0) which shows methylation analysis in the advanced intercross of Red Junglefowl and White Leghorns, which immediately leads to, as mentioned in the paper, the thought of DNA methylation QTL mapping.

Literature

Nätt, D., Rubin, C. J., Wright, D., Johnsson, M., Beltéky, J., Andersson, L., & Jensen, P. (2012). Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens. BMC genomics, 13(1), 59.

Lindqvist C, Janczak AM, Nätt D, Baranowska I, Lindqvist N, et al. (2007) Transmission of Stress-Induced Learning Impairment and Associated Brain Gene Expression from Parents to Offspring in Chickens. PLoS ONE 2(4): e364. doi:10.1371/journal.pone.0000364

Nätt D, Lindqvist N, Stranneheim H, Lundeberg J, Torjesen PA, et al. (2009) Inheritance of Acquired Behaviour Adaptations and Brain Gene Expression in Chickens. PLoS ONE 4(7): e6405. doi:10.1371/journal.pone.0006405

Epigenetics: what happened with this?

In 2012, Yan Li & Chris O’Neill published a paper about DNA methylation in the early mouse embryo, claiming that the first wave of demethylation following fertilisation in the mouse embryo doesn’t happen.

This picture, figure 1 from Seisenberger & al (2013; license: cc:by 3.0), shows what it is about. The curves represent DNA methylation level, and first time the curves drop represents the demethylation in question:

dna_demethylation_fig1

Li & O’Neill used a variation of immunostaining for methylated cytosine. Figures 8 and 3 summarise the results: eight shows embryos stained for methylated cytosine with two different preparation methods. The main claim of the paper is that the added trypsin treatment in the preparation helps unmask DNA methylation. So maybe the cytosine methylations are not removed, but temporarily hidden by something else. Figure 3 shows a Western blot for methyl-binding domain protein 1. The claim here is that if MBD1 is expressed, DNA methylation is also there. The obvious alternative hypothesis is that their variation on the protocol creates some kind of artefact and that MBD1 expression doesn’t matter.

journal.pone.0030687.g008

Figure 8, Li & O’Neill (cc:by 3.0).

The paper has been cited mostly by review papers, and I haven’t seen any further news on the subject. Does anyone know if anything more has happened?

Literature

Li Y, O’Neill C (2012) Persistence of Cytosine Methylation of DNA following Fertilisation in the Mouse. PLoS ONE 7(1) e30687. doi:10.1371/journal.pone.0030687

Seisenberger, S., Peat, J. R., Hore, T. A., Santos, F., Dean, W., & Reik, W. (2013). Reprogramming DNA methylation in the mammalian life cycle: building and breaking epigenetic barriers. Philosophical Transactions of the Royal Society B: Biological Sciences 368(1609), 20110330.