Using R: Installing GenABEL and RepeatABEL

GenABEL is an R package for performing genome-wide association with linear mixed models and a genomic relationship matrix. RepeatABEL is a package for such genome-wide association studies that also need repeated measures.

Unfortunately, since 2018, GenABEL is not available on CRAN anymore, because of failed checks that were not fixed. (Checks are archived on CRAN, but this means very little to me.) As a consequence, RepeatABEL is also missing.

Fair enough, the GenABEL creators probably aren’t paid to maintain old software. It is a bit tragic, however, to think that in 2016, GenABEL was supposed to be the core of a community project to develop a suite of genomic analysis packages, two years before it was taken of CRAN:

The original publication of the GenABEL package for statistical analysis of genotype data has led to the evolution of a community which we now call the GenABEL project, which brings together scientists, software developers and end users with the central goal of making statistical genomics work by openly developing and subsequently implementing statistical models into user-friendly software.

The project has benefited from an open development model, facilitating communication and code sharing between the parties involved. The use of a free software licence for the tools in the GenABEL suite promotes quick uptake and widespread dissemination of new methodologies and tools. Moreover, public access to the source code is an important ingredient for active participation by people from outside the core development team and is paramount for reproducible research. Feedback from end users is actively encouraged through a web forum, which steadily grows into a knowledge base with a multitude of answered questions. Furthermore, our open development process has resulted in transparent development of methods and software, including public code review, a large fraction of bugs being submitted by members of the community, and quick incorporation of bug fixes.

I have no special insight about the circumstances here, but obviously the situation is far from ideal. You can still use the packages, though, with a little more effort to install. Who knows how long that will be the case, though. In a complex web of dependencies like the R package ecosystem, an unmaintained package probably won’t last.

GenABEL can probably be replaced by something like GEMMA. It does mixed models for GWAS, and while it isn’t an R package, it’s probably about as convenient. However, I don’t know of a good alternative to RepeatABEL.

These are the steps to install GenABEL and RepeatABEL from archives:

  1. We go to the CRAN archive and get the tarballs for GenABEL, GenABEL.data which it needs, and RepeatABEL.
    curl -O https://cran.r-project.org/src/contrib/Archive/GenABEL/GenABEL_1.8-0.tar.gz
    curl -O https://cran.r-project.org/src/contrib/Archive/GenABEL.data/GenABEL.data_1.0.0.tar.gz
    curl -O https://cran.r-project.org/src/contrib/Archive/RepeatABEL/RepeatABEL_1.1.tar.gz
    

    We don’t need to unpack them.

  2. Install GenABEL.data and GenABEL from a local source. Inside R, we can use install.packages, using the files we’ve just downloaded instead of the online repository.
    install.packages(c("GenABEL.data_1.0.0.tar.gz", "GenABEL_1.8-0.tar.gz"), repos = NULL)
    
  3. To install RepeatABEL, we first need hglm, which we can get from CRAN. After that has finished, we install RepeatABEL, again from local source:
    install.packages("hglm")
    install.packages("RepeatABEL_1.1.tar.gz", repos = NULL)
    

This worked on R version 3.6.1 running on Ubuntu 16.04, and also on Mac OS X.

Literature

Karssen, Lennart C., Cornelia M. van Duijn, and Yurii S. Aulchenko. ”The GenABEL Project for statistical genomics.” F1000Research 5 (2016).

Paper: ‘Integrating selection mapping with genetic mapping and functional genomics’

If you’re the kind of geneticist who wants to know about causative variants that affect selected traits, you have probably thought about how to combine genome scans for signatures of selection with genome-wide association studies. There is one simple problem: Unfortunately, once you’ve found a selective sweep, the association signal is gone, because the causative variant is fixed (or close to). So you need some tricks.

This is a short review that I wrote for a research topic on the genomics of adaptation. It occurred to me that one can divide the ways to combine selection mapping and genetic mapping in three categories. The review contains examples from the literature of how people have done it, and this mock genome-browser style figure to illustrate them.

You can read the whole thing in Frontiers in Genetics.

Johnsson, Martin. Integrating selection mapping with genetic mapping and functional genomics. Frontiers in Genetics 9 (2018): 603.

”Gener påverkar” ditt och datt

Det var länge sedan jag skrev en post som den här, men en gång i tiden bestod bloggen nästan helt av gnäll på avsaknad av referenser i nyhetsartiklar om vetenskap. Delvis var det ett sätt att lägga till referenser till nyhetsartiklarna, för om en bloggpost länkade till en artikel i till exempel DN så svarade de med en länk på artikeln. Det känns som det var oskyldigare tider när tidningar tyckte det var rimligt att automatiskt länka till bloggar som skrev om dem.

Nåväl. Det börjar så här: en vän skickar en länk till den här artikeln på SVT Nyheter Uppsalas hemsida: ”Dina gener påverkar hur ditt fett lägger sig” Det är en notis med anledning av en ny vetenskaplig artikel från forskare i Uppsala. Den har till och med en liten video. Det står:

En ny studie gjord på Uppsala universitet visar att dina gener påverkar var ditt fett hamnar på kroppen.

360 000 personer har deltagit i studien, och studien kan visa att det främst är kvinnor som påverkas av sin genetik.

– Vi vet att kvinnor och män tenderar att lagra fett i olika delar av kroppen. Kvinnor har lättare för att lagra fett på höfter och ben, medan män i högre utsträckning lagrar fett i buken, säger Mathias Rask-Andersen vid institutionen för genetik vid Uppsala universitet.

Och inte så mycket mer. Min vän skriver ungefär: Men det här vet man väl ändå redan, att det kan finnas någon genetisk effekt på hur fett fördelar sig på kroppen? Det måste ligga något mer bakom forskningen som kommit bort i nyhetsartikeln. Och det gör det förstås.

Nu behöver vi hitta originalartikeln. Det finns ingen referens i nyhetsartikeln, men de har i alla fall hjälpsamt nämnt en av forskarna vid namn, så vi har lite mer information än att det är någon kopplad till Uppsala. Jag börjar med att söka efter Mathias Rask-Andersen. Först kollar jag hans Google Scholar-sida, men där finns artikeln inte än. Helt nya artiklar brukar ta en stund på sig att komma in i litteraturdatabaser. Sedan hans och forskargruppens sidor på Uppsala universitet, men de är förstås inte heller uppdaterade än. Eftersom nyhetsartikeln nämnde 360 000 individer kan vi gissa att de förmodligen använde data från UK Biobank, så vi kan titta på deras publikationssida också. Där finns nästan löjligt många artiklar som redan publicerats 2019, men inte den här.

Först efter det kommer jag på att titta på Uppsala universitets pressida efter det fullständiga pressmeddelandet. Bingo. Det innehåller en referens till artikeln i Nature Communications. Här är den: Rask-Andersen et al. (2019) Genome-wide association study of body fat distribution identifies adiposity loci and sex-specific genetic effects.

”Genome-wide association study”, står det — associationsstudie på hela genomet. Det rör sig alltså om en associationsstudie, det vill säga en studie som försöker koppla fettfördelningen till vissa genetiska varianter. Man dna-testar en massa människor och ser vilka genetiska varianter som hänger samman med att ha fettet på ett visst ställe på kroppen. (Här en mycket gammal bloggpost som försöker beskriva detta.)

Det handlar alltså inte om forskning som försöker pröva om fettfördelningen har någon genetisk grund eller inte, utan forskning som givet att fettfördelningen på kroppen har en viss genetisk grund försöker ta reda på vilka gener och genetiska varianter som påverkar. Nyhetsartikeln har alltså fått vad studien handlar om helt om bakfoten, och så här brukar det se ut när associationsstudier presenteras i media. De framställs som något som ska testa om ”gener påverkar” något eller inte. Hur kommer det sig?

Jag misstänker att associationsstudier är för svåra att beskriva kortfattat i ett pressmeddelande. Det är lättare att säga att studien visar ”att gener påverkar” än att den ”försöker hitta just de varianter av gener som påverkar”, och därför blir det vad forskaren eller kommunikatören på universitetet skriver i sitt pressmeddelande. Sedan klipper reportern ner pressmeddelandet till hanterbar längd, och då försvinner de flesta detaljer samt referensen till originalartikeln.

Så kommer det sig att nyhetsartiklar om nya associationsstudier ger helt missvisande beskrivningar av vad de handlar om.

Journal club of one: ”An expanded view of complex traits: from polygenic to omnigenic”

An expanded view of complex traits: from polygenic to omnigenic” by Boyle, Yang & Pritchard (2017) came out recently in Cell. It has been all over Twitter, and I’m sure it will influence a lot of people’s thinking — rightfully so. It is a good read, pulls in a lot of threads, and has a nice blend of data analysis and reasoning. It’s good. Go read it!

The paper argues that for a lot of quantitative traits — specifically human diseases and height — almost every gene will be associated with every trait. More than that, almost every gene will be causally involved in every trait, most in indirect ways.

It continues with the kind of analysis used in Pickrell (2014), Finucane & al (2015) among many others, that break genome-wide association down down by genome annotation. How much variability can we attribute to variants in open chromatin regions? How much to genes annotated as ”protein bindning”? And so on.

These analyses point towards gene regulation being important, but not that strongly towards particular annotation terms or pathways. The authors take this to mean that, while genetic mapping, including GWAS, finds causally involved genes, it will not necessarily find ”relevant” genes. That is, not necessarily genes that are the central regulators of the trait. That may be a problem if you want to use genetic mapping to find drug targets, pathways to engineer, or similar.

This observation must speak to anyone who has looked at a list of genes from some mapping effort and thought: ”well, that is mostly genes we know nothing about … and something related to cancer”.

They write:

In summary, for a variety of traits, the largest-effect variants are modestly enriched in specific genes or pathways that may play direct roles in disease. However, the SNPs that contribute the bulk of the heritability tend to be spread across the genome and are not near genes with disease-specific functions. The clearest pattern is that the association signal is broadly enriched in regions that are transcriptionally active or involved in transcriptional regulation in disease-relevant cell types but absent from regions that are transcriptionally inactive in those cell types. For typical traits, huge numbers of variants contribute to heritability, in striking consistency with Fisher’s century-old infinitesimal model.

I summary: it’s universal pleiotropy. I don’t think there is any reason to settle on ”cellular” networks exclusively. After all, cells in a multicellular organism share a common pool of energy and nutrients, and exchange all kinds of signalling molecules. This agrees with classical models and the thinking in evolutionary genetics (see Rockman & Paaby 2013). Or look at this expression QTL and gene network study in aspen (Mähler & al 2017): the genes with eQTL tend to be peripheral, not network hub genes.

It’s a bit like in behaviour genetics, where people are fond of making up these elaborate hypothetical causal stories: if eyesight is heritable, and children with bad eyesight get glasses, and the way you treat a child who wears glasses somehow reinforces certain behaviours, so that children who wear glasses grow up to score a bit better on certain tests — are the eyesight variants also ”intelligence variants”? This is supposed to be a reductio ad absurdum of the idea of calling anything an ”intelligence variant” … But I suspect that this is what genetic causation, when fully laid out, will sometimes look like. It can be messy. It can involve elements that we don’t think of as ”relevant” to the trait.

There are caveats, of course:

One reason that there is a clearer enrichment of variant-level annotation such as open chromatin than in gene-level annotation may be that the resolution is higher. We don’t really know that much about how molecular variation translates to higher level trait variation. And let’s not forget that for most GWAS hits, we don’t know the causative gene.

They suggest defining ”core genes” like this: ”conditional on the genotype and expres-
sion levels of all core genes, the genotypes and expression levels of peripheral genes no longer matter”. Core genes are genes that d-separate the peripheral genes from a trait. That makes sense. Some small number of genes may be necessary molecular intermediates for a trait. But as far as I can tell, it doesn’t follow that useful biological information only comes from studying core genes, nor does it follow that we can easily tell if we’ve hit a core or a peripheral gene.

Also, there are quantitative genetics applications of GWAS data that are agnostic of pathways and genes. If we want to use genetics for prediction, for precision medicine etc, we do not really need to know the functions of the causative genes. We need big cohorts, well defined trait measurements, good coverage of genetic variants, and a good idea of environmental risk factors to feed into prediction models.

It’s pretty entertaining to see the popular articles about this paper, and the juxtaposition of quotes like ”that all those big, expensive genome-wide association studies may wind up being little more than a waste of time” (Gizmodo) with researchers taking the opportunity to bring up up their favourite hypotheses about missing heritability — even if it’s not the same people saying both things. Because if we want to study rare variants, or complex epistatic interactions, or epigenomics, or what have you, the studies will have to be just as big and expensive, probably even more so.

Just please don’t call it ”omnigenetics”.

Literature

Boyle, Evan A., Yang I. Li, and Jonathan K. Pritchard. ”An Expanded View of Complex Traits: From Polygenic to Omnigenic.” Cell 169.7 (2017): 1177-1186.

En gen för fräknar, en gen för lockar, en gen för lukten av sparris

Det finns en rad företag som erbjuder genetiska analyser till privatpersoner. För några tusen får du spotta i ett rör, och företaget typar ett antal genetiska markörer, alltså kända platser i genomet som varierar mellan människor. Den informationen, alltså vilka varianter en individ bär på, kan ge lite olika upplysningar. Men det är inte så många genetiska varianter där vi faktiskt vet hur de ska tolkas.

En del information är mest för nöjes skull — saker vi förmodligen redan har märkt eller som vi inte har någon direkt nytta av. De flesta vet vilken ögonfärg de har även utan gentest, till exempel.

Några har kliniskt värde i och med att de speglar variationer i leverns enzymsystem och indikerar förmågan att bryta ner olika läkemedel. CYP2D6, till exempel, är en mycket känd sådan, som då och då typas i vården. Farmakogenetik, kallas den genetik som handlar om variationer i vårt svar på läkemedel, och det är kanske den form av personlig genetik som har störst potential att leverera inom överskådlig tid. Gentester till konsumenter i all ära, men än så länge är de mest en form av dyra leksaker.

Några, slutligen, avspeglar risk för olika sjukdomar. Här är det viktigt att veta, att de flesta sjukdomarna ifråga har en komplex genetisk bakgrund som interagerar med miljöfaktorer. Alltså, det vi hittar är inte en gen som orsakar sjukdomen, utan ett antal genetiska markörer som har ett samband med sjukdomsrisk. (En genetisk markör är en känd variation någonstans i genomet som går att typa; att en markör har ett samband med sjukdomsrisk betyder sannolikt att den ligger i närheten någon variation som orsakar den ökade risken.)

Det mest kända företaget i gentestningbranschen, 23andMe, har varit på tapeten ett par gånger den sista tiden. Den första anledningen var inte så smickrande. Nyligen visade det sig att 23andMe givit felaktiga uppgifter till ett antal kunder för att någon satt ner en platta med prover åt fel håll i en maskin…

Den andra anledningen är desto roligare: nyligen publicerade forskare från 23andMe sin första granskade vetenskapliga artikel: Web-Based, Participant-Driven Studies Yield Novel Genetic Associations for Common Traits publicerades den 24 juni, knappt ett år efter att den skickades in i PLoS Genetics. PLoS, Public Library of Science, publicerar en serie tidskrifter vars innehåll är Creative Commons-licensierat, och alltså kan läsas och spridas vidare av vem som helst (till skillnad från de flesta vetenskapliga tidskrifter, som bara är tillgängliga från universitetsbibliotek och andra instutitioner som betalar multum för prenumerationer).

Det är en artikel som handlar om den första typen av egenskaper ovan: ett antal egenskaper som inte är så medicinskt intressanta, men desto vanligare. Det finns definitivt ett vetenskapligt intresse i att beskriva hur genetiska variationer bidrar till den normala mänskliga variationen i till exempel utseende.

Arbetet är också särskilt intressant på grund av hur datainsamligen gått till. Försökspersonerna är nämligen de av 23andMes kunder som gått med på att att delta med sina data i vetenskapliga försök. De har själva samlat in proverna, genom att skicka sin saliv i ett rör med posten, och information om fenotyper, genom att besvara enkätfrågor på 23andMes hemsida, där de också hämtar sina data. 23andMe har alltså lyckats få försökspersoner att betala för privilegiet att delta i studien!

Den typ genetisk markör som 23andMe jobbar med kallas single nucleotide polymorphism (SNP). Det är ställen där, en enda position i genomet, en bas, skiljer sig mellan individer. Ett A, adenosin, kan till exempel vara utbytt mot cytosin, C. SNP:ar har den goda egenskapen att det finns massor av dem, så det går att typa markörer relativt tätt utspridda över hela genomet och på så sätt beskriva en individs genom i detalj. Genom att kombinera många individers genotypdata med information om dem, går det att statistiskt koppla samman genotyp med fenotyp — alltså att undersöka vilka genetiska varianter som hänger ihop med en viss egenskap. Detta kallas genome wide association (GWAS), kanske på svenska kanske helgenomsassociation. Det är vad 23andMe har gjort.

De har frågat sina kunder vilken hårfärg och ögonfärg de har, ifall de är fräkniga, är morgonmänniskor, har visdomständer, är vänster- eller högerhänta, har glasögon, har tandställning, gillar sötsaker, blir åksjuka och så vidare. Sedan har de formulerat resultaten som 22 antingen-eller: fräknar ja/nej, ögonfärg brun/blå, hårfärg blond/brun, rött hår ja/nej, och så vidare. 22 gånger har de alltså delat upp deltagarna i två grupper: en fall-grupp (”case”) där deltagarna har egenskapen i fråga, och en kontrollgrupp som inte har den. Och så jämförde de, för varje SNP, vilken variant folk har i fallgruppen och vilka de har i kontrollgruppen.

För åtta fenotyper hittade de SNP:ar som statistiskt skiljer sig mellan grupperna, och alltså är associerade med egenskapen — rött hår, fräknar, blont eller brunt hår, bruna eller blå ögon, gröna eller blå ögon, lockigt hår, samt två små konstigheter: tendensen att nysa i vid starkt ljus och förmågan att känna lukten av sparrismetaboliter i urin.

Här ser vi ett så kallat Manhattandiagram för fräknar. Varje punkt är en SNP, och på y-axeln finns p-värdet, som är ett statistiskt mått på hur stor tilltro vi sätter till associationern. Röda punkter är signifikant associerade SNP:ar, alltså de som har p-värden högre än ett visst tröskelvärde.

(Bild från artikeln; Eriksson et al. 2010)

Vi lägger märke till att de röda SNP:arna kommer i grupper som bildar små torn i diagrammet. Det är SNP:ar som ligger nära varandra och alltså alla är associerade med egenskapen och den eventuella närliggande underliggande varianten. De associerade SNP:arna leder sedan fram till kandidatgener, alltså troliga misstänkta gener i närheten av markören. Observera uttrycken ”kandidat” och ”misstänkta”… Det är inte alls självklart att genetiska kartläggningar träffar rätt. Kandidatgenerna behöver studeras närmare för att ta reda på vilka varianter det finns i dem, vad de faktiskt gör och hur det går till. Det är förstås också bra ifall resultatet kan upprepas i andra studier. (”The Gay Gene”, en kandidatregion för homosexualitet, är ett känt exempel på en association som inte gått att upprepa — ryktet om den verkar dock ändå inte vilja ta slut.)

Diagrammet ovan gäller fräknar, och här syns tre röda berg — tre regioner där det finns kandidatgener. Två av dem är upprepningar av tidigare associationer och den tredje är ny — det är en SNP som ligger inuti genen BNC2, som därmed är en ny kandidatgen för fräknar. Den liknar BNC1, en bättre känd gen vars proteinprodukt är viktig för hudceller. Det finns alltså en viss logik i att den kunde ha med fräknar att göra. Men som sagt, det återstår att se.

Litteratur

Eriksson N, Macpherson JM, Tung JY, Hon LS, Naughton B, et al. (2010) Web-Based, Participant-Driven Studies Yield Novel Genetic Associations for Common Traits. PLoS Genet 6 e1000993. doi:10.1371/journal.pgen.1000993