Paper: ‘Sequence variation, evolutionary constraint, and selection at the CD163 gene in pigs’

This paper is sort of a preview of what is going to be a large series of empirical papers on pig genomics from a lot of people in our group.

The humble CD163 gene has become quite important, because the PRRS virus exploits it to enter macrophages when it infects a pig. It turns out, that if you inactivate it — and there are several ways to go about that; a new one was even published right this paper (Chen et al. 2019) — you get a PRRSV-resistant pig. For obvious reasons, PRRSV-resistant pigs would be great for pig farmers.

In this paper, we wanted to figure out 1) if there were any natural knockout variants in CD163, and 2) if there was anything special about CD163 if you compare it to the rest of the genes in the pig genome. In short, we found no convincing knockout variants, and that CD163 seemed moderately variant intolerant, under positive selection in the lineage leading up to the pig, and that there was no evidence of a selective sweep at CD63.

You can read the whole thing in GSE.

Figure 1, showing sequence variants detected in the CD163 gene.

If you are so inclined, this might lead on to the interesting but not very well defined open question of how we combine these different perspectives on selection in the genome, and how they go together with other genome features like mutation rate and recombination rate variation. There are some disparate threads to bring together there.

Paper: ”Mixed ancestry and admixture in Kauai’s feral chickens: invasion of domestic genes into ancient Red Junglefowl reservoirs”

We have a new paper almost out (now in early view) in Molecular Ecology about the chickens on the Pacific island Kauai. These chickens are pretty famous for being everywhere on the island. Where do they come from? If you use your favourite search engine you’ll find an explanation with two possible origins: ancient wild birds brought over by the Polynesians and escaped domestic chickens. This post on Kauaiblog is great:

Hawaii’s official State bird is the Hawaiian Goose, or Nene, but on Kauai, everyone jokes that the “official” birds of the Garden Island are feral chickens, especially the wild roosters.

Wikepedia says the “mua” or red jungle fowl were brought to Kauai by the Polynesians as a source of food, thriving on an island where they have no real predators. /…/
Most locals agree that wild chickens proliferated after Hurricane Iniki ripped across Kauai in 1992, destroying chicken coops and releasing domesticated hens, and well as roosters being bred for cockfighting. Now these brilliantly feathered fowl inhabit every part of this tropical paradise, crowing at all hours of the day and night to the delight or dismay of tourists and locals alike.

In this paper, we look at phenotypes and genetics and find that this dual origin explanation is probably true.


(Chickens on Kauai.

Dom, Eben, and Pamela went to Kauai to photograph, record to and collect DNA from the chickens. (I stayed at home and did sequence bioinformatics.) The Kauai chickens look and sound like mixture of wild and domestic chickens. Some of them have the typical Junglefowl plumage, and other have flecks of white. Their crows vary in the length of the characteristic fourth syllable. Also, some of them have yellow legs, a trait that domestic chickens seem to have gotten not from the Red but from the Grey Junglefowl.

We looked at DNA sequences by massively parallel (SOLiD) sequencing of 23 individuals. We find mitochondrial sequences that fall in two haplogroups: E and D. The presence of the D haplogroup, which is the dominating one in ancient DNA sequences from the Pacific, means that there is a Pacific component to their ancestry. The E group, on the other hand, occurs in domestic chickens. It also shows up in some ancient DNA samples from the Pacific, but not from Kauai (and there is a scientific debate about these sequences). The nuclear genome analysis is pretty inconclusive. I think what we would need is some samples of possible domestic source populations (Where did the escapee  chickens came from? Are there other traditional domestic sources?) and a better sampling of Red Junglefowl to make better sense of it.

When we take the plumage, vocalisation and mitochondrial DNA together, it looks like this is a feral admixed population of either Red Junglefowl or traditional Pacific chickens mixed with domestics. A very interesting population indeed.

Kenneth Chang wrote about the paper in New York Times; includes quotes from Eben and Dom.

Morning coffee: cost per genome

I recently heard this thing referred to as ”the most overused slide in genomics” (David Klevebring). It might be: what it shows is some estimate of the cost of sequencing a human genome over time, and how it plummets around 2008. Before that, the curve is Sanger sequencing, and then the costs show second generation sequencing (454, Illumina and SOLiD).


The source is the US National Human Genome Research Institute, and they’ve put some thought into how to estimate costs so that machines, reagents, analysis and people to do the work are included and that the different platforms are somewhat comparable. One must first point out that downstream analysis to make any sense of the data (assembly and variant calling) isn’t included. But the most important thing that this graph hides, even if the estimates of the cost would be perfect, is that to ”sequence a genome” means something completely different in 2001 and 2015. (Well, with third generation sequencers that give long reads coming up, the old meaning might come back.)

For data since January 2008 (representing data generated using ‘second-generation’ sequencing platforms), the ”Cost per Genome” graph reflects projects involving the ‘re-sequencing’ of the human genome, where an available reference human genome sequence is available to serve as a backbone for downstream data analyses.

The human genome project was of course about sequencing and assembling the genome into high quality sequences. Very few of the millions of human genomes resequenced since are anywhere close. As people in the sequencing loop know, resequencing with short reads doesn’t give you a genome sequence (and neither does trying to assemble a messy eukaryote genome with short reads only). It gives you a list of variants compared to the reference sequence. The usual short read business has no way of detect anything but single nucleotide variants and small indels. (And the latter depends … Also, you can detect copy number variants, but large scale structural variants are mostly off the table.) Of course, you can use these edits to reconstruct a consensus sequence from the reference, but it would be a total lie.

Again, none of this is news for people who deal with sequencing, and I’m not knocking second-generation sequencing. It’s very useful and has made a lot of new things possible. It’s just something I think about every time I see that slide.

agcgaaaaagtggaaaacagcgaacgcattaacggc (Så går det till, del 4)

Nu är det ungefär åtta år sedan det mänskliga genomprojektet avslutades. Nu pratas det med jämna mellanrum om den sköna nya värld när alla kommer kunna sekvensera sitt genom. (Vad i hela friden vi ska med våra individuella genomsekvenser till är fortfarande en öppen fråga. Jag föreslår att skriva ut den på ett ungefär trehundra mil långt toalettpapper att släpa runt på.) Samtidigt strömmar det in nya organismer, senast tror jag kakao och jordgubbe, som fått en referenssekvens. Tidningar brukar oftast kalla det ”kartläggning” eller att ”knäcka den genetiska koden”, men de menar nästan alltid sekvensering.

Att ta fram en referenssekvens är fortfarande ett hårt jobb, men det är när den är klar som den verkliga sekvenseringen kan börja. Då blir det lätt för de som är intresserade av någon viss gen eller viss kandidatregion att sekvensera den och hitta intressanta genetiska variationer. Och den moderna sekvenseringen, som snabbt läser av DNA från många slumpvis valda delar av genomet och sedan lappar ihop det till en hyfsat heltäckande sekvens, behöver en bra referenssekvens.

Sådana massivt parallella sekvenseringsmetoder (med namn som Illumina Genome Analyzer, SOLiD och Roche 454) kommer starkt för tillfället. Men Sangersekvensering är förmodligen fortfarande den viktigaste metoden, vid sidan av alternativet pyrosekvensering. (Det finns andra tidigare metoder och den numera typ övergivna Maxam-Gilbertsekvenseringen, men de är drygare.) Alltså — Sangers enzymatiska sekvensering med avbrutna kedjor!

Vi börjar med en primer — precis som i PCR, fast det behövs bara en — en kort DNA-sekvens som passar där vi vill börja läsa. Så kommer DNA-polymeraset, utgår från primern och bygger upp en ny sträng som kopierar den gamla. Den nya strängen byggs upp av nukleotider — en av baserna A, T, G, C som sitter ihop med en sockermolekyl. Så långt allt gott. Det är bara det att vi satt till en andel stoppnukleotider — nukleotider som är kemiskt lite annorlunda och inte går att bygga vidare på.

När polymeraset råkar sätta in en stoppnukleotid är den strängen slut. Stoppnukleotiden är dessutom märkt med en fluorescent molekyl i en av fyra färger, en för varje bas. Resultatet är en blandning av strängar av olika längd som fluorescerar (avger ljus när den blir belyst) i olika färg beroende på vilken bas de slutar med.

Så, om vi bara kan sortera DNA-fragmenten i storleksordning kan vi läsa av sekvensen som en serie av fluorescenta ljus. Hur storlekssorterar vi? Med gelektrofores! Sekvenseringmaskiner brukar använda ett tunnt glasrör med gel och ha en fast detektor som DNA-bitarna passerar igenom. När de åker förbi lyser detektorn på dem med laser och ser vilken färg som lyser tillbaka.

Sedan ritar den ett diagram med en kurva för varje färg, där sekvensen framträder som en bergskedja av toppar i olika färger. (Eller snarare, det gör ett datorprogram på datorn kopplad till maskinen — om någon vet om ett trevligt fritt program för Sangersekvensering, berätta för mig!)

Den här metodens nackdel är att den bara kan sekvensera en ganska kort sekvens i taget, upp till kanske tusen baspar. Början av sekvensen brukar också vara svår att läsa av. För att konstruera en referenssekvens behövs det alltså ohyggliga mängder sekvenseringsreaktioner; det mänskliga genomet är ungefär tre miljarder baser. Å andra sidan går det fort att köra en reaktion, och numera är bara att stoppa sitt prov (till exempel en renad PCR-produkt) i ett kuvert och skicka till något av alla de företag som gör sekvensering för typ 100 kr per reaktion.

(Rubriken är ett exempel på den genetiska koden. Proteiner byggs upp av aminosyror, som motsvarar en trio av baspar i en gen. Trion kallas kodon — och vilka kodoner som motsvarar vilken aminosyra kallas den genetiska koden. ”GCT” står för aminosyran alanin, till exempel. I en annan, inte genetisk utan mänsklig, kod förkortas varje aminosyra med en bokstav ur alfabetet. Rubriksekvensen skapades med webbprogrammet Reverse Translate — nej, jag kan det inte i huvudet. Den kan översättas tillbaka till exempel med Transeq.)