A partial success

In 2010, Poliseno & co published some results on the regulation of a gene by a transcript from a pseudogene. Now, Kerwin & co have published a replication study, the protocol for which came out in 2015 (Khan et al). An editor summarises it like this in an accompanying commentary (Calin 2020):

The partial success of a study to reproduce experiments that linked pseudogenes and cancer proves that understanding RNA networks is more complicated than expected.

I guess he means ”partial success” in the sense that they partially succeeded in performing the replication experiments they wanted. These experiments did not reproduce the gene regulation results from 2010.

Seen from the outside — I have no insight in what is going on here or who the people involved are — something is not working here. If it takes five years from paper to replication effort, and then another five years to replication study accompanied by an editorial commentary that subtly undermines it, we can’t expect replication studies to update the literature, can we?


What’s the moral of the story, according to Calin?

What are the take-home messages from this Replication Study? One is the importance of fruitful communication between the laboratory that did the initial experiments and the lab trying to repeat them. The lack of such communication – which should extend to the exchange of protocols and reagents – was the reason why the experiments involving microRNAs could not be reproduced. The original paper did not give catalogue numbers for these reagents, so the wrong microRNA reagents were used in the Replication Study. The introduction of reporting standards at many journals means that this is less likely to be an issue for more recent papers.

There is something right and something wrong about this. On the one hand, talking to your colleagues in the field obviously makes life easier. We would like researchers to put all pertinent information in writing, and we would like there to be good communication channels in cases where the information turns out not to be what the reader needed. On the other hand, we don’t want science to be esoteric. We would like experiments to be reproducible without the special artifact or secret sauce. If nothing else, because the people’s time and willingness to provide tech support for their old papers might be limited. Of course, this is hard, in a world where the reproducibility of an experiment might depend on the length of digestion (Hines et al 2014) or that little plastic thingamajig you need for the washing step.

Another take-home message is that it is finally time for the research community to make raw data obtained with quantitative real-time PCR openly available for papers that rely on such data. This would be of great benefit to any group exploring the expression of the same gene/pseudogene/non-coding RNA in the same cell line or tissue type.

This is true. You know how doctored, or just poor, Western blots are a notorious issue in the literature? I don’t think that’s because Western blot as a technique is exceptionally bad, but because there is a culture of showing the raw data (the gel), so people can notice problems. However, even if I’m all for showing real-time PCR amplification curves (as well as melting curves, standard curves, and the actual batch and plate information from the runs), I doubt that it’s going to be possible to trouble-shoot PCR retrospectively from those curves. Maybe sometimes one would be able to spot a PCR that looks iffy, but beyond that, I’m not sure what we would learn. PCR issues are likely to have to do with subtle things like primer design, reaction conditions and handling that can only really be tackled in the lab.

The world is messy, alright

Both the commentary and the replication study (Kerwin et al 2020) are cautious when presenting their results. I think it reads as if the authors themselves either don’t truly believe their failure to replicate or are bending over backwards to acknowledge everything that could have gone wrong.

The original study reported that overexpression of PTEN 3’UTR increased PTENP1 levels in DU145 cells (Figure 4A), whereas the Replication Study reports that it does not. …

However, the original study and the Replication Study both found that overexpression of PTEN 3’UTR led to a statistically significant decrease in the proliferation of DU145 cells compared to controls.

In the original study Poliseno et al. reported that two microRNAs – miR-19b and miR-20a – suppress the transcription of both PTEN and PTENP1 in DU145 prostate cancer cells (Figure 1D), and that the depletion of PTEN or PTENP1 led to a statistically significant reduction in the corresponding pseudogene or gene (Figure 2G). Neither of these effects were seen in the Replication Study. There are many possible explanations for this. For example, although both studies used DU145 prostate cancer cells, they did not come from the same batch, so there could be significant genetic differences between them: see Andor et al. (2020) for more on cell lines acquiring mutations during cell cultures. Furthermore, one of the techniques used in both studies – quantitative real-time PCR – depends strongly on the reagents and operating procedures used in the experiments. Indeed, there are no widely accepted standard operating procedures for this technique, despite over a decade of efforts to establish such procedures (Willems et al., 2008; Schwarzenbach et al., 2015).

That is both commentary and replication study seem to subscribe to a view of the world where biology is so rich and complex that both might be right, conditional on unobserved moderating variables. This is true, but it throws us into a discussion of generalisability. If a result only holds in some genotypes of DU145 prostate cancer cells, which might very well be the case, does it generalise enough to be useful for cancer research?

Power underwhelming

There is another possible view of the world, though … Indeed, biology rich and complicated, but in the absence of accurate estimates, we don’t know which of all these potential moderating variables actually do anything. First order, before we start imagining scenarios that might explain the discrepancy, is to get a really good estimate of it. How do we do that? It’s hard, but how about starting with a cell size greater than N = 5?

The registered report contains power calculations, which is commendable. As far as I can see, it does not describe how they arrived at the assumed effect sizes. Power estimates for a study design depend on the assumed effect sizes. Small studies tend to exaggerate effect sizes (because, if an estimate is small the difference can’t be significant). This means that taking the estimates as staring effect sizes might leave you with a design that is still unable to detect a true effect of reasonable size.

I don’t know what effect sizes one should expect in these kinds of experiments, but my intuition would be that even if you think that you can get good power with a handful of samples per cell, can’t you please run a couple more? We are all limited by resources and time, but if you’re running something like a qPCR, the cost per sample must be much smaller than the cost for doing one run of the experiment in the first place. It’s really not as simple as adding one row on a plate, but almost.


Calin, George A. ”Reproducibility in Cancer Biology: Pseudogenes, RNAs and new reproducibility norms.” eLife 9 (2020): e56397.

Hines, William C., et al. ”Sorting out the FACS: a devil in the details.” Cell reports 6.5 (2014): 779-781.

Kerwin, John, and Israr Khan. ”Replication Study: A coding-independent function of gene and pseudogene mRNAs regulates tumour biology.” eLife 9 (2020): e51019.

Khan, Israr, et al. ”Registered report: a coding-independent function of gene and pseudogene mRNAs regulates tumour biology.” Elife 4 (2015): e08245.

Poliseno, Laura, et al. ”A coding-independent function of gene and pseudogene mRNAs regulates tumour biology.” Nature 465.7301 (2010): 1033-1038.

Forskare vill prata om den nya gentekniken, men vem vill prata med forskare?

Forskare: ”Vi måste prata!”

Tystnad. Gryllidae-läten hörs i bakgrunden.

Andra forskare: ”Äh, håll tyst!”

För några veckor sedan kom det en debattartikel i SvD: ”Vi måste ta ställning till (eller samtala om, beroende på var på sidan man läser) den nya gentekniken” från ett gång forskare kopplade till gruppen CRISPRideas vid Pufendorfinstitutet vid Lunds universitet. Deras uppgift verkar vara att analysera hur genredigeringstekniker som CRISPR/Cas debatteras:

Genom jämförande analyser av debatten i framförallt de nordiska länderna, men även globalt, kommer vi att undersöka hur vetenskaplig kunskap, värderingar och normer har påverkat såväl experter som allmänheten och olika intressenter i deras uppfattning om de nya genredigeringsteknikernas möjligheter och risker.

Det förefaller som att debattartikeln skrevs i samband med deras möte ”Medical and agricultural perspectives on new genome editing technologies” i november, och det ser ut att ha varit ett kul möte.

Synd att debattartikeln blev tråkig. Men det är kanske inte så konstigt. Om man är en grupp forskare med olika bakgrund ens mandat är att undersöka om en debatt, så är kanske den mest naturliga åsikten att driva att en bred debatt är bra och nödvändig.

Det kan låta som en åsikt som det är svårt att invända mot, men komiskt nog finns det andra som gör det. För strax därpå tyckte Jesper Sundström och Torbjörn Fagerström att det var ”Risk för ohederlig debatt om gensaxen”.

Några kommentarer om debattartikeln. Jag förstår att de hade begränsat utrymme, men här på min blogg kan jag breda ut mig hur mycket jag vill, så vi kan titta närmare på några påståenden.

Get some of that prime jive, get some of that, get get get down

Artikeln börjar med prime-redigering, en ny variant av CRISPR/Cas-redigering som publicerades nyligen (Anzalone & al 2019). Det är tydligen på grund av den som det är extra viktigt att debattera. (Oklart vad det borde heta på svenska: ”prime” är ”början” eller ”start”, som i ”primer”, en kort RNA eller DNA-bit som hjälper en enzymatisk dna-kopiering starta.)

Idén med prime-redigering är att istället för att klippa av hela dna-strängen och klistra ihop den med en ny, så tar man bara av halva i taget, för att inte råka ha sönder för mycket, och syntetiserar det nya dna:t på plats, så att det säkert kommer i kontakt med den nyklippta dna-strängen. Det är en påhittig konstruktion som kombinerar CRISPR-systemet, stulet från bakterier, med omvänt transkriptas, stulet från virus.

Varför behövs all den här påhittigheten? För att genredigering i själva verket fungerar ganska dåligt. Att slå ut en gen i cellkultur är en relativt smal sak: klipp ett hål och låt cellen klistra ihop den bäst den kan, förmodligen blir resultatet en trasig gen. Men att byta ut en variant av en gen med en annan är svårare; majoriteten av försöken misslyckas. Det är okej i labbet, när det bara är att odla nya celler och försöka igen. Det skulle vara mindre okej i en genterapisituation där en patient ska få en ny fungerande genvariant. Prime-redigering kanske är lösningen.

Det är inte lätt att veta om prime-redigering kommer bli det nya, eller om det bara är en i serien av olika förfinade CRISPR/Cas-varianter. Som utgångspunkt för debatt ställer den inga nya frågor som inte redan ställs av tidigare CRISPR/Cas-varianter, precis som CRISPR/Cas inte leder till några nya frågor som inte redan ställdes av rekombinant DNA och fosterdiagnostik. Däremot kanske den gör att genredigering blir lättare att få att fungera, och på så sätt kan de frågorna bli mer aktuella.

Har prime-redigering botat 175 genetiska sjukdomar? Nej, ännu inte en enda.

I debattartikeln beskriver de vad prime-redigering kan göra så här. Det är föredömligt korrekt, men det är ändå värt att understryka vad det betyder:

David Liu och hans forskargrupp visar att den nya gensaxen fungerar anmärkningsvärt väl: de lyckades korrigera ett häpnadsväckande antal mutationer (175 stycken!) i olika celler från möss och människor. Bland annat har man lyckats korrigera de tidigare svåråtkomliga sjukdomsmutationerna som orsakar sickelcell-anemi och den allvarliga nervsjukdomen Tay Sachs sjukdom. Möjligheterna med tekniken är stora. Liu och hans forskargrupp hävdar att över 80 procent av alla nu kända sjukdomsalstrande mutationer kan korrigeras med prime-redigering. (min kursivering)

Det prime-redigering löser är att den gör det lättare att faktiskt redigera, inte bara ta sönder. Det har varit svårt för CRISPR/Cas i praktiken att ersätta en genvariant med en annan. Men för att göra någon form av genterapi med prime-redigering måste någon också se till att det går att rikta redigeringarna till det organ eller den vävnad där problemet finns, och visa att det är tillräckligt att den fungerande genvarianten uttrycks där för att sjukdomsförloppet ska vändas, eller åtminstone avstanna.

Är de dna-redigerade kinesiska barnen skyddade mot hiv?

Sedan pratar de om det kinesiska fallet med barn som (under falska förespeglingar) fått sitt dna-redigerat i en gen som har med hiv-infektion att göra. Den här formuleringen, däremot, är så slarvig att den inte riktig är sann:

I fjol använde en kinesisk forskare Crispr för att förändra arvsmassan hos foster så att de skyddas mot hiv. Detta ledde till en storm i forskarvärlden eftersom permanent förändring av arvsmassan, som förs vidare till kommande generationer, är förbjudet i Sverige och många andra länder.

Det finns inget snällare sätt att beskriva kunskapsläget än att den kinesiska forskaren (He Jiankui) hoppades att barnen skulle bli resistenta mot hiv. Det är inte alls säkert att de faktiskt är resistenta. Vad han gjorde var att klippa hål i genen CCR5 som kodar för en av de receptorer som hiv kan använda för att komma in i cellen. Mutationerna var inspirerade av en allel som kallas CCR5-delta32 och som ger resistens mot vissa typer av hiv genom att slå ut receptorn. Förmodligen har mutationerna som barnen bär på också den effekten att de slår ut receptorn, och i så fall är de förmodligen resistenta mot vissa typer av hiv. Dessutom är det mycket möjligt att barnen har olika mutationer i olika delar av kroppen, så de kanske har en fungerande CCR5 i vissa kroppsdelar och en trasig i andra.

Jag tycker det är fel att koncentrera sig på att det var en permanent förändring i arvsmassan, som om det var det enda problemet. Att barnen, när de växer upp, kommer behöva oroa sig för om eventuella problem går i arv är illa, men det är bara ett i en rad av risker de utsätts för. Det är frågan om en oprövad behandling, med helt okända biverkningar, dåligt genomförd (fråga vem som helst som jobbat med CRISPR/Cas själv vad de tycker om Jiankuis kvalitetskontroll av redigeringar), utförd på ofödda barn vars föräldrar nästan säkert fått bristfällig information … Att lägga fram det som om det var frågan om en behandling som faktiskt gjorde nytta, men som tyvärr är ärftlig är att missa poängen.

Finns det någon risk att Sverige hamnar på efterkälken pga av etiska kval?

Författarna oroar sig, efter det kinesiska fallet, att genredigering ska förbjudas och Sverige på något sätt hamna på efterkälken. Det hade varit hjälpsamt om de givit något exempel på vem i Sverige som tycker detta?

Eftersom det finns en stark opinion mot GMO och det är svårt att få tillstånd för odling av GMO-baserade grödor i Europa har den nya regleringen kraftigt bromsat forskningen inom området. Det hindrar utvecklingen av hållbara grödor. Skulle samma sak drabba Crispr-tekniker för medicinsk tillämpning kommer den vetenskapliga utvecklingen att stanna av och våra möjligheter att bota allvarliga genetiska sjukdomar kommer att reduceras.

Genetiska förändringar i människor som går i arv är inte tillåtet i Sverige, oavsett teknik (Lag (2006:351) om genetisk integritet m.m.). Som synes är lagen från 2006, så inget nytt under solen.

Debatt om debatten om debatten

Till sist, det här är kanske långsökt, men debatten om debatten fick mig att tänka på detta fina referat av svensk lärd debatt från Tage Danielssons Grallimatik (1966).

Professor Gunnar Biörck:
Jag gör mig härmed till tolk för en tigande opinion som ogillar normlöshet och trolöshet och den junta av kulturradikaler som skriver om sånt.

Fil. dr Olof Lagercrantz:
Det är farligt med okunniga professorer.

Fil. lic. Johan Asplund:
Naturvetenskaparna borde någon gång säga något.

Naturvetenskaparna borde någon gång säga något. Det tycker undertecknarna också:

I vårt tvärvetenskapliga projekt vid Pufendorfinstitutet på Lunds universitet – CRISPRideas – bryts naturvetenskapliga och medicinska synsätt mot etiska, filosofiska, juridiska och humanistiska synsätt. Det har vidgat våra vyer och stärkt oss i vår uppfattning att det vetenskapliga samfundet kan och skall vara en partner i svåra men viktiga samtal. Björnen har lämnat sitt ide – den är inte farlig, bara man är varlig! (Slutklämmen på slutrepliken, ”Att inte debattera är inte ett alternativ”.)


Antonio Regalado. (2019) China’s CRISPR: babies. MIT Technology Review.

Andrew V Anzalone et al. (2019) Search-and-replace genome editing without double-strand breaks or donor DNA. Nature.

Sequencing-based methods called Dart

Some years ago James Hadfield at Enseqlopedia made a spreadsheet of acronyms for sequencing-based methods with some 50 rows. I can only imagine how long it would be today.

The overloading of acronyms is becoming a bit ridiculous. I recently saw a paper about DART-seq, a method for detecting N6-methyladenosine in RNA (Meyer 2019), and thought, ”wait a minute, isn’t DART-seq a reduced representation genotyping method?” It is, only stylised as DArTseq (seriously). Apparently, it’s also a droplet RNA-sequencing method (Saikia et al. 2018).

What are these methods doing?

  • DArT, diversity array technology, is a way to enrich for a part of a genome. It was originally developed with array technology in mind (Jaccoud et al. 2001). They take some DNA, cut it with restriction enzymes, add adapters and amplify regions close to the cut. Then they clone the resulting DNA, and then attach it to a slide, and that gives a custom microarray of anonymous fragments from the genome. For the Dart-seq version, it seems they make a sequencing library instead of going on to cloning (Ren et al. 2015). It falls in the same family as GBS and RAD-seq methods.
  • DART-seq, droplet-assisted RNA targeting, builds on Drop-seq, where they put single cells and beads that carry primers into the same oil droplet. As cells lyse, the RNA sticks to the primer. The beads also have a barcode so they can be identified in sequencing. Then they break the emulsion, reverse transcribe the RNA attached to beads, amplify and sequence. That is cool. However, because they capture the RNA with oligo-dT primers, they sequence from the 3′ end of the RNA. The Dart method adds primers to the beads, so they can target some specific RNAs and amplify more of them. It’s the super-high-tech version of gene-specific primers for reverse transcription..
  • DART-seq, deamination adjacent to RNA modification targets, uses a synthetic fusion protein that combines APOBEC1, which deaminates cytidines, with a protein domain from YTHDF2 which binds N6-methyladenosine. If an RNA has N6-methyladenosine, cytidines that are close to it, as is usually the case with this base modification, will be deaminated to uracil. After RNA-sequencing, this will look like Cs next to As turning into Ts. Neat! It’s a little bit like bisulfite sequencing of methylated DNA, but with RNA.

On the one hand: Don’t people search the internet before they name their methods, or do they not care? On the other hand, realistically, the genotyping method Dart and the single cell RNA-seq method Dart are unlikely to show up in the same work. If you can call your groups ”treatment” and ”control” for the purpose of a paper, maybe you can call your method ”Dart”, and no-one gets too confused.

Genes do not form networks

As a wide-eyed PhD student, I read a lot of papers about gene expression networks and was mightily impressed by their power. You can see where this is going, can’t you?

Someone on Twitter talked about their doubts about gene networks: how networks ”must” be how biology works, but that they weren’t sure that network methods actually had helped genetics that much, how there are compelling annotation term enrichments, and individual results that ”make sense”, but not many hard predictions. I promise I’m not trying to gossip about them behind their back, but I couldn’t find the tweets again. If you think about it, however, I don’t think genes must form networks at all, quite the opposite. But there are probably reasons why the network idea is so attractive.

(Edit: Here is the tweet I was talking about by Jeffrey Barrett! Thanks to Guillaume Devailly for pointing me to it.)

First, network representations are handy! There are all kinds of things about genes that can be represented as networks: coexpression, protein interactions, being mentioned in the same PubMed abstract, working on the same substrate, being annotated by the same GO term, being linked in a database such as STRING which tries to combine all kinds of protein–protein interactions understood broadly (Szklarczyk & al 2018), differential coexpression, co-differential expression (Hudson, Reverter & Dalrymple 2009), … There are all kinds of ways of building networks between genes: correlations, mutual information, Bayesian networks, structural equations models … Sometimes one of them will make an interesting biological phenomena stand out and become striking to the eye, or to one of the many ways to cluster nodes and calculate their centrality.

Second, networks are appealing. Birgitte Nerlich has this great blog post–On books, circuits and life–about metaphors for gene editing (the book of life, writing, erasing, cutting and editing) and systems biology (genetic engineering, circuits, wiring, the genetic program). Maybe the view of gene networks fits into the latter category, if we imagine that the extremely dated analogy with cybernetics (Peluffo 2015) has been replaced with the only slightly dated idea of a universal network science. After Internet and Albert, Jeong & Barabási (1999), what could be more apt than understanding genes as forming networks?

I think it’s fair to say that for genes to form networks, the system needs to be reasonably well described by a graph of nodes and edges. If you look at systems of genes that are really well understood, like the gap gene ”network”, you will see that they do not look like this at all. Look at Fig 3 in Jaeger (2011). Here, there is dynamic and spatial information not captured by the network topology that needs to be overlaid for the network view to make sense.

Or look at insulin signalling, in Fig 1 of Nyman et al (2014). Here, there are modified versions of proteins, non-gene products such as glucose and the plasma membrane, and again, dynamics, including both RNA and protein synthesis themselves. There is no justification for assuming that any of that will be captured by any topology or any weighting of genes with edges between them.

We are free to name biological processes networks if we want to; there’s nothing wrong with calling a certain process and group of related genes ”the gap gene network”. And we are free to use any network representation we want when it is useful or visually pleasing, if that’s what we’re going for. However, genes do not actually form networks.


Szklarczyk, D, et al. (2018) STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic acids research.

Hudson, N. J., Reverter, A., & Dalrymple, B. P. (2009). A differential wiring analysis of expression data correctly identifies the gene containing the causal mutation. PLoS computational biology, 5(5), e1000382.

Peluffo, A. E. (2015). The ”Genetic Program”: behind the genesis of an influential metaphor. Genetics, 200(3), 685-696.

Albert, R., Jeong, H., & Barabási, A. L. (1999). Diameter of the world-wide web. Nature, 401(6749), 130.

Jaeger, J. (2011). The gap gene network. Cellular and Molecular Life Sciences, 68(2), 243-274.

Nyman, E., Rajan, M. R., Fagerholm, S., Brännmark, C., Cedersund, G., & Strålfors, P. (2014). A single mechanism can explain network-wide insulin resistance in adipocytes from obese patients with type 2 diabetes. Journal of Biological Chemistry, 289(48), 33215-33230.

Journal club: ”Template plasmid integration in germline genome-edited cattle”

(This time it’s not just a Journal Club of One, because this post is based on a presentation given at the Hickey group journal club.)

The backstory goes like this: Polled cattle lack horns, and it would be safer and more convenient if more cattle were born polled. Unfortunately, not all breeds have a lot of polled cattle, and that means that breeding hornless cattle is difficult. Gene editing could help (see Bastiaansen et al. (2018) for a model).

In 2013, Tan et al. reported taking cells from horned cattle and editing them to carry the polled allele. In 2016, Carlson et al. cloned bulls based on a couple of these cell lines. The plan was to use the bulls, now grown, to breed polled cattle in Brazil (Molteni 2019). But a few weeks ago, FDA scientists (Norris et al 2019) posted a preprint that found inadvertent plasmid insertion in the bulls, using the public sequence data from 2016. Recombinetics, the company making the edited bulls, conceded that they’d missed the insertion.

”We weren’t looking for plasmid integrations,” says Tad Sonstegard, CEO of Recombinetics’ agriculture subsidiary, Acceligen, which was running the research with a Brazilian consulting partner. ”We should have.”


For context: To gene edit a cell, one needs to bring both the editing machinery (proteins in the case of TALENS, the method used here; proteins and RNA in the case of CRISPR) and the template DNA into the cell. The template DNA is the DNA you want to put in instead of the piece that you’re changing. There are different ways to get the components into the cell. In this case, the template was delivered as part of a plasmid, which is a bacterially-derived circular DNA.

The idea is that the editing machinery should find a specific place in the genome (where the variant that causes polledness is located), make a cut in the DNA, and the cell, in its efforts to repair the cut, will incorporate the template. Crucially, it’s supposed to incorporate only the template, and not the rest of the plasmid. But in this case, the plasmid DNA snuck in too, and became part of the edited chromosome. Biological accidents happen.

How did they miss that, and how did the FDA team detect it? Both the 2016 and 2019 paper are short letters where a lot of the action is relegated to the supplementary materials. Here are pertinent excerpts from Carlson & al 2016:

A first PCR assay was performed using (btHP-F1: 5’- GAAGGCGGCACTATCTTGATGGAA; btHP-R2- 5’- GGCAGAGATGTTGGTCTTGGGTGT) … The PCR creates a 591 bp product for Pc compared to the 389 bp product from the horned allele.

Secondly, clones were analyzed by PCR using the flanking F1 and R1 primers (HP1748-F1- 5’- GGGCAAGTTGCTCAGCTGTTTTTG; HP1594_1748-R1- 5’-TCCGCATGGTTTAGCAGGATTCA) … The PCR creates a 1,748 bp product for Pc compared to the 1,546 bp product from the horned allele.

All PCR products were TOPO cloned and sequenced.

Thus, they checked that the animals were homozygotes for the polled allele (called ”Pc”) by amplifying two diagnostic regions and sequenced them to check the edit. This shows that the target DNA is there.

Then, they used whole-genome short read sequencing to check for off-target edits:

Samples were sequenced to an average 20X coverage on the Illumina HiSeq 2500 high output mode with paired end 125 bp reads were compared to the bovine reference sequence (UMD3.1).

Structural variations were called using CLC probabilistic variant detection tools, and those with >7 reads were further considered even though this coverage provides only a 27.5% probability of accurately detecting heterozygosity.

Upon indel calls for the original non-edited cell lines and 2 of the edited animals, we screened for de novo indels in edited animal RCI-001, which are not in the progenitor cell-line, 2120.

We then applied PROGNOS4 with reference bovine genome build UMD3.1 to compute all potential off-targets likely caused by the TALENs pair.

For all matching sequences computed, we extract their corresponding information for comparison with de novo indels of RCI-001 and RCI-002. BEDTools was adopted to find de novo indels within 20 bp distance of predicted potential targets for the edited animal.

Only our intended edit mapped to within 10 bp of any of the identified degenerate targets, revealing that our animals are free of off-target events and further supporting the high specificity of TALENs, particularly for this locus.

That means, they sequenced the animals’ genomes in short fragment, puzzled it together by aligning it to the cow reference genome, and looked for insertions and deletions in regions that look similar enough that they might also be targeted by their TALENs and cut. And because they didn’t find any insertions or deletions close to these potential off-target sites, they concluded that the edits were fine.

The problem is that short read sequencing is notoriously bad at detecting larger insertions and deletions, especially of sequences that are not in the reference genome. In this case, the plasmid is not normally part of a cattle genome, and thus not in the reference genome. That means that short reads deriving from the inserted plasmid sequence would probably not be aligned anywhere, but thrown away in the alignment process. The irony is that with short reads, the bigger something is, the harder it is to detect. If you want to see a plasmid insertion, you have to make special efforts to look for it.

Tan et al. (2013) were aware of the risk of plasmid insertion, though, at least when concerned with the plasmid delivering the TALEN. Here is a quote:

In addition, after finding that one pair of TALENs delivered as mRNA had similar activity as plasmid DNA (SI Appendix, Fig. S2), we chose to deliver TALENs as mRNA to eliminate the possible genomic integration of TALEN expression plasmids. (my emphasis)

As a sidenote, the variant calling method used to look for off-target effects (CLC Probabilistic variant detection) doesn’t even seem that well suited to the task. The manual for the software says:

The size of insertions and deletions that can be found depend on how the reads are mapped: Only indels that are spanned by reads will be detected. This means that the reads have to align both before and after the indel. In order to detect larger insertions and deletions, please use the InDels and Structural Variation tool instead.

The CLC InDels and Structural Variation tool looks at the unaligned (soft-clipped) ends of short sequence reads, which is one way to get at structural variation with short read sequences. However, it might not have worked either; structural variation calling is a hard task, and the tool does not seem to be built for this kind of task.

What did Norris & al (2019) do differently? They took the published sequence data and aligned it to a cattle reference genome with the plasmid sequence added. Then, they loaded the alignment into the trusty Integrative Genomics Viewer and manually looked for reads aligning to the plasmid and reads supporting junctions between plasmid, template DNA and genome. This bespoken analysis is targeted to find plasmid insertions. The FDA authors must have gone ”nope, we don’t buy this” and decided to look for the plasmid.

Here is what they claim happened (Fig 1): The template DNA is there, as evidenced by the PCR genotyping, but it inserted twice, with the rest of the plasmid in-between.


Here is the evidence (Supplementary figs 1 and 2): These are two annotated screenshots from IGV. The first shows alignments of reads from the calves and the unedited cell lines to the plasmid sequence. In the unedited cells, there are only stray reads, probably misplaced, but in the edited calves, ther are reads covering the plasmid throughout. Unless somehow else contaminated, this shows that the plasmid is somewhere in their genomes.


Where is it then? This second supplementary figure shows alignments to expected junctions: where template DNA and genome are supposed to join. The colourful letters are mismatches, showing where unexpected DNA shows up. This is the evidence for where the plasmid integrated and what kind of complex rearrangement of template, plasmid and genome happened at the cut site. This must have been found by looking at alignments, hypothesising an insertion, and looking for the junctions supporting it.


Why didn’t the PCR and targeted sequencing find this? As this third supplementary figure shows, the PCRs used could, theoretically, produce longer products including plasmid sequence. But they are way too long for regular PCR.


Looking at this picture, I wonder if there were a few attempts to make a primer pair that went from insert into the downstream sequence, that failed and got blamed on bad primer design or PCR conditions.

In summary, the 2019 preprint finds indirect evidence of the plasmid insertion by looking hard at short read alignments. Targeted sequencing or long read sequencing could give better evidence by observing he whole insertion. Recombinetics have acknowledged the problem, which makes me think that they’ve gone back to the DNA samples and checked.

Where does that leave us with quality control of gene editing? There are three kinds of problems to worry about:

  • Off-target edits in similar places in other parts of the genome; this seems to be what people used to worry about the most, and what Carlson & al checked for
  • Complex rearrangements around cut site (probably due to repeated cutting; this became a big concern after Kosicki & al (2018), and should apply both to on- and off-target cuts
  • Insertion of plasmid or mutated target; this is what happened in here

The ways people check gene edits (targeted Sanger sequencing and short read sequencing) doesn’t detect any of them particularly well, at least not without bespoke analysis. Maybe the kind of analysis that Norris & al do could be automated to some extent, but currently, the state of the art seems to be to manually look closely at alignments. If I was reviewing the preprint, I would have liked it if the manuscript had given a fuller description of how they arrived at this picture, and exactly what the evidence for this particular complex rearrangement is. This is a bit hard to follow.

Finally, is this embarrassing? On the one hand, this is important stuff, plasmid integration is a known problem, so the original researchers probably should have looked harder for it. On the other hand, the cell lines were edited and the clones born before a lot of the discussion and research of off-target edits and on-target rearrangements that came out of CRISPR being widely applied, and when long read sequencing was a lot less common. Maybe it was easier to think that the sort read off-target analysis was enough then. In any case, we need a solid way to quality check edits.


Molteni M. (2019) Brazil’s plan for gene edited-cows got scrapped–here’s why. Wired.

Carlson DF, et al. (2016) Production of hornless dairy cattle from genome-edited cell lines. Nature Biotechnology.

Norris AL, et al. (2019) Template plasmid integration in germline genome-edited cattle. BioRxiv.

Tan W, et al. (2013) Efficient nonmeiotic allele introgression in livestock using custom endonucleases. Proceedings of the National Academy of Sciences.

Bastiaansen JWM, et al. (2018) The impact of genome editing on the introduction of monogenic traits in livestock. Genetics Selection Evolution.

Kosicki M, Tomberg K & Bradley A. (2018) Repair of double-strand breaks induced by CRISPR–Cas9 leads to large deletions and complex rearrangements. Nature Biotechnology.

På dna-dagen: dna-metaforer

Det finns olika metaforer för deoxyribonukleinsyran och vad den betyder för oss. Dna kan vara en ritning, ett recept, ett program eller skrift.

Det är nästan omöjligt att säga något om molekylärgenetik utan metaforer. Med kvantitativ genetik går det lite lättare, i all fall tills de statistiska modellerna och beräkningarna kommer fram. Kvantitativ genetik handlar om saker som alla kan se i vardagen, som familjelikhet och släktskap. Molekylärgenetik handlar om saker som, i och för sig finns i det allmäna medvetandet, men inte syns omkring oss.

Men metaforer kan vara ohjälpsamma och leda tanken fel. Bilden av dna som en ritning av organismen kan verka för enkel och leda tanken till genetisk determinism. Nu vet jag, trots att jag ska föreställa ingenjör, inte mycket om ritningar. På flera sätt är det inte så tokigt: en ritning representerar det som ska byggas med ett specialiserat bildspråk i en lägre dimension. Ett hus är i 3D, men en ritning i 2D. Proteiner är tredimensionella; den genetiska koden beskriver dem i en dimension. Men det kanske är sant att ordet ”ritning” (eller ”blåkopia”) för tanken till något som är för exakt och för avbildande.

Ett alternativ är att dna är ett recept (det är många som föreslagit det; bland annat Richard Dawkins i The Blind Watchmaker, 1986). Receptet har den fördelen att det beskriver en process med både ingredienser och instruktioner. Det är lite som organismens utveckling från ett befruktat ägg till en vuxen. ”Tillsätt maternell bicoid i ena änden och nanos i andra änden; låt proteinerna blandas fritt”, och så vidare (Gilbert 2000). En annan fördel är att det naturligt påminner om att dna inte är allt. Samma recept med lokala skillnader i ingredienser och improvisationer från den som lagar blir olika anrättningar. Å andra sidan överdriver receptet vad som finns i dna. Vilka gener som uttrycks var och när är ett samspel av dna och de proteiner och rna som redan finns i en cell vid en viss tidpunkt.

Eller så är dna ett program. Program är också instruktioner, så det har samma fördelar och nackdelar som receptet på den punkten. Å andra sidan är program abstrakta och fria från konkreta ingredienser och associationer till matlagning. Lite som en ritning låter det mekaniskt och exakt. Det spelar tydligt också roll vad dna skulle vara en ritning av eller ett recept på. Det är viss skillnad att kalla dna en ritning av proteiner än ett recept på en organism.

Till sist finns det metaforer inskrivna i själva terminologin. När genetiker pratar om dna, hur det förs vidare och används, pratar vi om det som ett skriftspråk. Det kallas kopiering när dna reproduceras när celler ska dela sig. Det kallas transkription, alltså kopiering men med en ton av överföring till en annan form eller ett annat medium, när rna produceras från dna. Det kallas translation, översättning, när rna i sin tur fungerar som mall för proteinsyntes. Till råga på allt skriver vi dna med ett alfabet på fyra bokstäver: A, C, T, G. Det är en bild som är så passande att den nästan är sann.

(Den 25 april 1953 publicerades artiklarna som presenterade dna-molekylens struktur. Därav dna-dagen. Gamla dna-dagsposter: Genetik utan dna (2016), Gener, orsak och verkan (2015), På dna-dagen (2014))

Undervisning: Molekylärgenetik

NBIC45 utgår! Leve NBIC52! Den senaste varianten av molekylärgenetikkursen har just börjat. Nu var det inte tänkt att jag skulle undervisa något i år, men jag hoppar in som ställföreträdande skägg. Så läraruppställningen ändras lite mindre än det var tänkt från början.

Provrörsställ, rör, lösningar, pipetter och blåsippor som inte har med saken att göra.

Laborationerna, där en kan träffa mig, handlar om nöjsamma saker som genotypning med polymeraskedjereaktionen och att transformera bakterier med plasmider. Och att tolka inte alltid helt tydliga band på geler, samt stå i kö till centrifugen. Jag tycker det är rätt roligt. Att stå i kö till centrifugen är kanske inte det roligaste i världen. Men alla som arbetat i ett molekylärt laboratorium kan intyga att det i alla fall är realistiskt.

Jag har skrivit (och twittrat) något om innehållet i labbarna förut.

På dna-dagen: Gener, orsak och verkan

”DNA, livets molekyl” … Visst, DNA är en viktig och snygg biomolekyl. Men varför skulle inte en komplex kolhydrat, ett protein eller en membranlipid förtjäna det namnet?

Det finns två perspektiv på genetik som jag brukar tjata om. Å ena sidan: genetik som handlar om vad molekylära gener gör och vad de har för funktion. Å andra sidan: genetik som är studiet av ärftliga skillnader mellan individer, och i förlängningen populationer och arter. Genetik beskrivs ibland som en vetenskap som handlar om ”koder” och ”information”. Det ligger något i det, men jag tror det är bra att vara lite försiktig med metaforerna. Jag misstänker att koder och information inte är något vi bara hittar liggande ute i naturen, så att säga, utan mänskliga tolkningar.

Ja, vissa DNA-sekvenser skrivs av till mRNA som kodar för proteiner. Här betyder ”kodar för” att sekvensen har tripletter av baser som är komplementära mot tRNA-molekyler som bär aminosyror. Andra sekvenser motsvarar RNA-molekyler som har någon annan funktion. Men de orsakande faktorerna till att ett visst RNA uttrycks vid en viss tid finns inte i DNA, utan någon annan stans. DNA är en del av mekanismen, men det är också RNA-polymeraset som skriver av det, spliceosomen som sätter ihop aktivt mRNA, de system av enzymer som tillverkar nukleotiderna och så vidare, och så vidare. Processen aktiveras av vad som händer i organismens miljö, interna processer som omfattar många delar av cellen eller helt olika delar av kroppen osv. På så sätt är kärnan med sitt DNA en organell vilken som helst.

Men! Det finns ett sammanhang där det är befogat att prata om genetiska orsaker, nämligen ärftliga skillnader mellan individer. Det går att hitta (och faktiskt konstruera) exempel på individer där dramatiska skillnader i egenskaper som utseende och beteende beror på en skillnad i DNA-sekvens — en genetisk variant eller ”gen” i den klassiska bemärkelsen. Det förstås, det kan finnas andra typer av ärftlighet som inte beror på DNA, och i så fall borde de också räknas med här. Men de flesta saker som inuti celler kan göra skillnad i en organisms egenskaper — proteiner, membranlipider, kolhydrater, små organiska molekyler osv — nollställs mellan generationerna, när könsceller bildas och utvecklingen så att säga börjar om varje generation. Men DNA går i arv — med sin ”information”, om en så vill.

(Den 25 april 1953 publicerades artiklarna som presenterade DNA-molekylens struktur. Därav DNA-dagen. Min DNA-dagspost från förra året: På dna-dagen)

Morning coffee: cost per genome

I recently heard this thing referred to as ”the most overused slide in genomics” (David Klevebring). It might be: what it shows is some estimate of the cost of sequencing a human genome over time, and how it plummets around 2008. Before that, the curve is Sanger sequencing, and then the costs show second generation sequencing (454, Illumina and SOLiD).


The source is the US National Human Genome Research Institute, and they’ve put some thought into how to estimate costs so that machines, reagents, analysis and people to do the work are included and that the different platforms are somewhat comparable. One must first point out that downstream analysis to make any sense of the data (assembly and variant calling) isn’t included. But the most important thing that this graph hides, even if the estimates of the cost would be perfect, is that to ”sequence a genome” means something completely different in 2001 and 2015. (Well, with third generation sequencers that give long reads coming up, the old meaning might come back.)

For data since January 2008 (representing data generated using ‘second-generation’ sequencing platforms), the ”Cost per Genome” graph reflects projects involving the ‘re-sequencing’ of the human genome, where an available reference human genome sequence is available to serve as a backbone for downstream data analyses.

The human genome project was of course about sequencing and assembling the genome into high quality sequences. Very few of the millions of human genomes resequenced since are anywhere close. As people in the sequencing loop know, resequencing with short reads doesn’t give you a genome sequence (and neither does trying to assemble a messy eukaryote genome with short reads only). It gives you a list of variants compared to the reference sequence. The usual short read business has no way of detect anything but single nucleotide variants and small indels. (And the latter depends … Also, you can detect copy number variants, but large scale structural variants are mostly off the table.) Of course, you can use these edits to reconstruct a consensus sequence from the reference, but it would be a total lie.

Again, none of this is news for people who deal with sequencing, and I’m not knocking second-generation sequencing. It’s very useful and has made a lot of new things possible. It’s just something I think about every time I see that slide.

På dna-dagen

Idag är det tydligen dna-dagen enligt någon; det är i alla fall roligare än kanelbullens dag. Den 25 april 1953 var dagen då artiklarna (Watson & Crick 1953; Franklin & Gosling 1953; Wilkins, Stokes & Wilson 1953) om dna-molekylens struktur publicerades, och dagen då en typ 150-årig jakt på arvsanlagens molekylära natur på något sätt kulminerade. Från äckligt var från något sår till dna-sekvenser, typ. Alla har sett någon bild på dna-strängen, så jag väljer medvetet att inte visa någon sådan. Istället tänkte jag skriva några rader om dna som kod, en vanlig metafor som både är bra och dålig.

Deoxyribonukleinsyra (dna) är en uppbyggt av en ryggrad av deoxyribos samt olika kombinationer av fyra kvävebaser (adenosin, tymin, guanidin och cytosin; de förkortas med sin begynnelsebokstav som A, T, G och C). De kan kombineras i olika ordning och det är följden av A, T, G och C som bildar den dna-sekvens som lagrar biologisk information. En normal dna-molekyl består av två strängar som löper i motsatt riktning. Baserna bildar par där G kombineras med C och A med T. Båda strängarna lagrar alltså samma information men i motsatt och, som det kallas, komplementär riktning.

Sedan bildar dna-molekyler kromosomer: en kromosom är en lång dna-molekyl upplindad på proteiner. Vi diploida organismer har två uppsättningar av våra kromosomer: en från mamma och en från pappa. Genomet är den sammanlagda sekvensen från en uppsättning av alla kromosomer. När en pratar om det mänskliga genomet menar en den mänskliga referenssekvensen, som är ett exempel på hur en uppsättning kromosomer kan se ut. Det finns naturligtvis genetisk variation mellan indiver. Ta till exempel följande bit från människans kromosom 1:

>1 dna:chromosome chromosome:GRCh37:1:11013:12345:1

Men om jag intresserade mig för den här sekvensen skulle jag antagligen betrakta den på en ännu högre abstraktionsnivå, ungefär såhär. Detta är en bild från genomläsaren Ensembl. Detaljerna är inte så viktiga; poängen med den här illustrationen är att genetiken till stor del abstraherar bort den underliggande biokemin. Vi betraktar inte dna-sekvensen direkt, utan med olika bekvämare representationer av dna-sekvensen.


Ibland pratar en om den genetiska koden. Med det uttrycket avses inte hela genomet, utan de ungefär 2% som specificerar sekvensen för proteiner. Det är nämligen så att vissa dna-sekvenser, proteinkodande gener, följer en viss kod som motsvarar en sekvens av aminosyror. Aminosyror, i sin tur, bygger upp proteiner, som är biologiskt aktiva stora organiska molekyler som gör saker i celler och kroppar. Proteiner kan vara enzymer som katalyserar olika reaktioner, transportproteiner som flyttar molekyler fram och tillbaka, strukturella proteiner som bygger upp vävnader etc etc. Den genetiska koden, som det kallas, betsår av tripletter av baser, där en tre baser motsvarar en aminosyra. ATG till exempel, motsvara aminosyran metionin samt även startsignalen för att bygga ett protein. TTT motsvarar fenylalanin, GTA valin och så vidare. TAA, TAG eller TGA innebär att den kodande genen är slut och att proteinsekvensen är färdig.

Men det finns andra dna-sekvenser som har andra funktioner än att koda för proteiner. De är svårare att beskriva och hantera, för deras kod är inte lika regelbunden och lätthanterlig som den genetiska koden, men de är ändå viktiga. Till exempel finns det dna-sekvenser som reglerar när och hur mycket olika delar av kroppen kommer använda proteinkodande gener till att faktiskt tillverka proteiner.

Majoriteten av genomet består inte av gener, utan av diverse jox som inte fyller någon direkt funktion. Spaghettikod är ett skällsord som programmerare ibland använder för kod som är svår att överblicka, förvirrande, och som när den körs kommer hoppa hit och dit. Om det mänskliga genomet ska beskrivas som kod är det förmodligen någon sorts spaghettikod. Jag tänkte länge att ett datorprogram är en fruktansvärt dålig metafor för ett genom, eftersom programkod är konstruerad av mänskliga medvetanden som har en plan. Men mina vänner som arbetar med programmering har övertygat mig om att ett tillräckligt stort mjukvaruprojekt med många inblandade ibland utvecklas lite som ett genom, med en kombination av slumpvisa händelser och naturligt urval, inte bara som en process av rationell design.