Prata svenska

Nu när jag inte alls behöver prata om genetik på svenska känns det plötsligt extra viktigt att tänka på det.

Helst skulle jag förstås vilja kunna prata om genetik på svenska med termer som är begripliga, smidiga och inte känns konstlade. Vad som känns konstlat är naturligtvis en smakfråga. Ska man skriva ”enbaspolymorfier” eller ”snippar”? Det första låter som kanslihussvenska och det andra är ett lustigt ljud med genitala associationer.

Jag kan komma på alla möjliga svepskäl att inte prata om genetik på svenska — ”det låter töntigt”; ”det finns inte ord” — men de är inte särskilt bra. Det är också såklart sant att någon som jag är bättre på mitt modersmål än ett andra språk jag lärde mig skolan, och antagligen både tänker och skriver mer effektivt och nyanserat på svenska än på engelska.

Vilka är de bästa källorna till svenska genetiska termer? Jag antar att de flesta svensktalande genetiker gör som jag och litar till en blandning av: vad vi hört äldre akademiker säga, uppslagsverk som Nationalencyklopedin och Wikipedia, Biotermgruppens lista, kanske KI-bibliotekets svenska MeSH-termer och, om allt annat tryter, översättning från engelska enligt eget huvud.

Genetisk terminologi har flera besvärliga egenskaper. Dels finns det många låneord från latin och grekiska — epistasi, pleiotropi, eukaryot, … — som antagligen inte direkt är självförklarande ens för den som kan latin eller grekiska. ”Epistasi” förresten … Biotermgruppen kallar det ”epistas”, KI-MeSH skriver ”epistasi” och Wikipedia ”epistasis”. Naturligtvis använder genetiker inom olika specialområden samma ord på olika sätt också. ”Pleiotropi” betyder tre olika saker (Paaby & Rockman 2013). Eller var det sju olika saker (Hodkin 1998)?

Sedan finns det massor av ord som betyder ungefär samma sak. Vad är skillnaden på ”variant” och ”allel”? Betyder ”gen” samma sak som ”locus”, eller är det ”variant” och ”locus” som betyder samma sak? Det beror på vem som svarar.

Och till sist verkar genetiker tro att att det hjälper läsaren, eller får dem att verka klyftiga, om de myntar massor av förkortningar. Och sedan helst, som med snipparna ovan, förvandlar förkortningarna till roliga små läten. Snipp och BLUP och tork och kvark voro sex små dvärgar.

It seems dplyr is overtaking correlation heatmaps

(… on my blog, that is.)

For a long time, my correlation heatmap with ggplot2 was the most viewed post on this blog. It still leads the overall top list, but by far the most searched and visited post nowadays is this one about dplyr (followed by it’s sibling about plyr).

I fully support this, since data wrangling and reorganization logically comes before plotting (especially in the ggplot2 philosophy).

But it’s also kind of a shame, because it’s not a very good dplyr post, and the one about the correlation heatmap is not a very good ggplot2 post. Thankfully, there is a new edition of the ggplot2 book by Hadley Wickham, and a new book by him and Garrett Grolemund about data analysis with modern R packages. I’m looking forward to reading them.

Personally, I still haven’t made the switch from plyr and reshape2 to dplyr and tidyr. But here is the updated tidyverse-using version of how to quickly calculate summary statistics from a data frame:


data <- data.frame(sex = c(rep(1, 1000), rep(2, 1000)),
                   treatment = rep(c(1, 2), 1000),
                   response1 = rnorm(2000, 0, 1),
                   response2 = rnorm(2000, 0, 1))

gather(data, response1, response2, value = "value", key = "variable") %>%
  group_by(sex, treatment, variable) %>%
  summarise(mean = mean(value), sd = sd(value))

Row by row we:

1-3: Load the packages.

5-8: Simulate some nonsense data.

10: Transform the simulated dataset to long form. This means that the two variables response1 and response2 get collected to one column, which will be called ”value”. The column ”key” will indicate which variable each row belongs to. (gather is tidyr’s version of melt.)

11: Group the resulting dataframe by sex, treatment and variable. (This is like the second argument to d*ply.)

12: Calculate the summary statistics.

Source: local data frame [8 x 5]
Groups: sex, treatment [?]

    sex treatment  variable        mean        sd
  (dbl)     (dbl)     (chr)       (dbl)     (dbl)
1     1         1 response1 -0.02806896 1.0400225
2     1         1 response2 -0.01822188 1.0350210
3     1         2 response1  0.06307962 1.0222481
4     1         2 response2 -0.01388931 0.9407992
5     2         1 response1 -0.06748091 0.9843697
6     2         1 response2  0.01269587 1.0189592
7     2         2 response1 -0.01399262 0.9696955
8     2         2 response2  0.10413442 0.9417059

Peerage of science, first impressions

After I wrote a post about reviewing papers, Craig Primmer suggested on Twitter that I look into Peerage of Science. Peerage of Science is a portal and community for peer review. It has a lot of good ideas. It decouples reviewing from journal submission, but it is still made for papers aimed to be published in a conventional journal. It collects reviewers and manuscripts from a different fields in one place, allows interested reviewers to select papers they want to review, and provides anonymity (if the authors want it). I once wrote a few sentences about what I thought ”optimal peer review” would be like, for a PLOS early career researchers’ travel grant. (I did not get the grant.) My ideas for better peer review were probably not that bright, or that realistic, but they did share several features with the Peerage of Science model. Naturally, I was interested.

I’ve tried reviewing for Peerage of Science for a couple of months. My first impression is that it seems to work really well. The benefits are quite obvious: I’ve seen some of the papers get more reviews than they would typically get at a journal, and the reviews usually seem no less elaborate. The structured form for reviewing is helpful, and corresponds well with what I think a good review should be like. I think I’ll stick around, look out for the notifications, and jump in when a paper is close to my interests. I really hope enough people will use Peerage of Science for it to be successful.

There are also downsides to this model:

There seems to be an uneven allocation of reviewer effort. Some papers have a lot of reviewers, but some have only one. Of course, only the people at Peerage of Science know the actual distribution of reviews. Maybe one reviewer processes are actually very rare! This is a bit like post-publication review, except that there, you can at least know who else has already commented on a paper. I know some people think that this is a good thing. Papers that attract interest also attract scrutiny, and thus reviewer effort is directed towards where it is most needed. But I think that in the ideal case, every paper would be reviewed thoroughly. This could be helped by an indicator of how many other reviewers have engaged, or at least already posted their essays.

There is also the frustration of coming late to a process where one feels the reviewers have done a poor job. This was my first experience. I joined a review process that was at its last stages, and found a short, rather sloppy review that missed most of what I thought were the important points, and belaboured what I thought was a non-issue. Too late did I realize that I could do nothing about it.

Who reviews the reviewers? The reviewers do. I see the appeal of scoring and weighting reviews. It certainly makes reviewing more of a learning experience, which must be a good thing. But I feel rather confused about what I am supposed to write as reviewer feedback. Evidently, I’m not alone, because people seem to put rather different things in the feedback box.

Since the Peerage of Science team have designed the whole format and platform, I assume that every part of the process is thought through. The feedback forms, the prompts that are shown with each step, the point at which different pieces of information is revealed to you — this is part of a vision of better peer review. But sometimes, that vision doesn’t fully make sense to me. For example, if the authors want to sign their manuscripts, Peerage of Science has the following ominous note for them:

Peerage of Science encourages Authors to remain anonymous during the review process, to ensure unbiased peer review and publishing decisions. Reviewers usually expect this too, and may perceive signed submissions as attempts to influence their evaluation and respond accordingly.

Also, I’d really really really love to be able to turn down the frequency of email notifications. In the last four days, I’ve gotten more than one email a day about review processes I’m involved in, even if I can’t do anything more until after the next deadline.

Den sura genetikern

Häromveckan skrev jag något kritiskt om vetenskap i medier. Det gör jag inte så ofta längre.

Det var en post om genetisk variation i MAOA-genen som kopplats till antisocialt beteende (med mera med mera) och dokumentären ”Ditt förutbestämda liv” som SVT sände ganska nyligen. Den går inte att se på SVT Play längre, men det finns en trailer i alla fall.

En gång i tiden så brukade jag läsa DN:s och SR:s vetenskapssidor och om jag hittade något intressant slå upp originalartiklarna, leta reda på pressmeddelanden, artiklar i engelskspråkiga tidningar som stått som förebild och så vidare. Ibland skrev jag kritiska brev och ibland postade jag länkar till originalartiklar, så de plockades upp av någon aggregator och länkades från nyhetsartikeln. Det var oskyldigare webbtider när nyhetstidningar var villiga att länka ogranskade bloggposter från sina artiklar. Men jag har nästan slutat med det, och när jag skriver något kritiskt gör det mig alltid lite nervös. Det är av flera anledningar:

1. Är det så viktigt att det är rätt?

Jag har förstås skaffat mig en massa onödigt bestämda åsikter om genetik, evolution och hur man bör uttrycka sig om dem. Det vore onödigt att tjafsa om alla dessa småsaker. Men jag tycker ändå att det är rimligt att kritisera beskrivningar av forskning som säger saker som inte är sanning, till exempel att ett par kandidatgenstudier från 2002-2003 är banbrytande och skriver om hela genetiken, eller att genetisk variation i MAOA är viktig för att förstå antisocialt beteende, när bevisen för det är i högsta grad skakiga. Dokumentären påstod till och med att Caspi et al 2003 (den om depression och serotonintransportgenen 5HTT) skulle vara en av världens mest refererade artiklar.

2. Tänk om jag har fel?

Det har jag ju ändå rätt ofta. Det finns en hel litteratur om MAOA, något tjog primärstudier eller så. De är, som jag skrev, en blandad kompott av positiva och negativa resultat (Foley & al 2004, Huang & al 2004, Haberstick & al 2005, Huizinga & al 2006, Kim-Cohen & al 2006, Nilsson & al 2006, Widom, Spatz & Brzustowicz 2006, Young & al 2006, Frazzetto & al 2007, Rief & al 2007, van der Vegt & al 2009, Weder & al 2009, Beach & al 2010, Derringer & al 2010, Edwards & al 2010, Enoch & al 2010). Det tyder på att effekten är för liten eller för variabel i förhållande till stickprovsstorleken. Knäckfrågan i det här fallet, som behövs för att kunna utvärdera både originalstudien och uppföljarna är: Om det nu skulle finnas en interaktion mellan varianter av MAOA och en dålig uppväxt, hur stor skulle den vara då? Tyvärr är det inte så lätt att veta.

Om vi skulle försöka oss på att rita en styrkekurva för interaktionen mellan MAOA och dålig uppväxt (Caspi & al 2002), det vill säga hur stor sannolikhet en studie av den här storleken har att hitta en effekt, så måste vi gissa vad en realistisk effekt skulle kunna vara. Artikeln gör en rad jämförelser, men om vi ska välja en så tycker jag det är rimligt att ta skillnaden mellan de som har riskvarianter och som inte blivit illa behandlade och de som har den och har blivit gravt illa behandlade under uppväxten. Om riskvarianter av MAOA verkligen gör människor mer sårbara för att bli illa behandlade under barndomen, så borde den här jämförelsen visa det. Vi behöver också välja en av variablerna att koncentrera oss på. Varför inte uppförandestörning (conduct disorder), vilket måste vara den som nämns i dokumentären.

Om vi simulerar data med olika oddskvoter (x-axeln; OR står för ”odds ratio”) och ritar en styrkekurva blir resultatet ungefär så här. (Obs, jag har läst av siffrorna från ett av diagrammen i artikeln. De är nog bara ungefär rätt.) Det vill säga, om vi antar samma andel ”gravt illa behandlade” individer och samma stickprovsstorlek, så ökar sannolikheten att hitta ett statistiskt signifikant resultat ungefär så här:


Det vill säga, den är inte särskilt stor. Vilka effektstorlekar kan vara rimliga? I samma artikel skattar de oddskvoten kopplad till att bli illa behandlad (hos de utan riskvarianten, och de är betydligt fler) till 2.5 för gravt illa behandlade och 1.3 för ”sannolikt” illa behandlade. Ficks & Waldman (2013) gjorde en metaanalys av studier med MAOA och antisocialt beteende (utan att ta hänsyn till interaktioner) och fick en oddskvot på 1.2. Rautiainen et al (2016) har gjort en helgenomsanalys av aggression hos vuxna och den största effekt de hittar är ungefär 2.2.

Men problemet med låg styrka är inte bara att det är svårt att få ett statistiskt signifikant resultat om det finns en stor och riktig skillnad. För om man, mot alla odds, hittar ett statistiskt signifikant resultat, hur stor ser effekten ut att vara? Den ser, med nödvändighet, ut att vara jättestor. Det här diagrammet visar den skattade effekten i simuleringar där resultatet var statistiskt signifikant (på 5%-nivån):


Men visst, det är förstås möjligt att de ursprungliga studierna hade tur med sina handfullar människor, att de som misslyckades med att detektera någon interaktion hade otur, och att MAOA-varianter kommer visa sig ha stora reproducerbara effekter när det efter hand börjar komma helgenomstudier som inkluderar interaktioner med miljövariabler. Jag håller inte andan.

(Koden bakom diagrammen finns på github. Förutom osäkerheten om vilken jämförelse som är den mest relevanta, så beror styrkan hos logistisk regression också på den konstanta termen, oddsen för beteendeproblem hos de som saknar riskvarianten. De är något fler än de som har den, men det är ändå en skattning med stor osäkerhet. Här har jag bara stoppat in den skattning jag fått ur data utläst ur diagrammet i Caspi & co 2002.)

3. Vill jag verkligen ha rollen som den professionella gnällspiken?

”Det finns en i varje familj. Två i min faktiskt.” Och det finns minst en på varje vetenskaplig konferens, i varje hörn av den vetenskapliga litteraturen, och på vetenskapsbloggar här och där … Alltså, någon som gjort det till sin uppgift att protestera, gärna med hög röst och blommigt språk, varje gång någon inte gör någon viss vetenskaplig idé rättvisa. Det finns förstås ett värde i kritik, och ingen har någon plikt att komma med ett bättre alternativ när de framför välgrundad kritik. Men det är ändå inte den skojigaste rollen, och det är inte riktigt vad jag vill viga mitt liv åt.

Så, varför inte skriva om något med arv och miljö som jag gillar? Här är en artikel jag såg publiceras ganska nyligen om förhållandet mellan arv, miljö och risk — i det här fallet handlar det om hjärtsjukdom.

Khera, Amit V., et al. ”Genetic Risk, Adherence to a Healthy Lifestyle, and Coronary Disease.” New England Journal of Medicine (2016).

Den här studien vinner, ur mitt perspektiv, på att den inte bara koncentrerar sig på en enda gen, utan kombinerar information från varianter av ett gäng (femtio) gener där varianter tidigare kopplats till risk för hjärtsjukdom. När det gäller komplexa egenskaper som påverkas av många genetiska varianter är det här en mycket bättre idé. Det är antagligen till och med en nödvändighet för att dra några meningsfulla slutsatser om genetisk risk. De kombinerar också ett antal miljövariabler som antas påverka risken för hjärtsjukdom, det vill säga mer eller mindre hälsosamma vanor.

(Artikeln är tillgänglig gratis men inte licensierad under någon rimlig licens, så jag visar inte det diagram från artikeln jag skulle vilja visa här. Klicka på länken och titta på ”Figure 3” om du vill se det.)

Själva sensmoralen i ”Ditt förutbestämda liv” var att gener i och för sig spelar roll, men att en bra uppväxt är bra för alla. Det kan i och för sig gömma sig gen–miljöinteraktioner under de additiva effekter som den här studien bygger på, men sensmoralen blir ändå densamma: ett hälsosamt leverne verkar vara bra för alla, även de som haft otur med sina genetiska varianter och fått hög genetisk risk.

4. Det känns orättvist mot de som försökt kommunicera vetenskap, och kanske kontraproduktivt.

Tack och lov behöver jag sällan skriva om saker som är särskilt långt ifrån det jag är utbildad inom. Vetenskapsjournalister och -reportrar gör det desto oftare, och dessutom på begränsad tid. Oftast gäller det dessutom forskning som är alldeles ny, och därför extra svår att utvärdera. Men i det här fallet gäller det faktiskt forskning som är över tio år gammal, och både de som gjorde dokumentären och Vetenskapens värld som valde dess inramning i SVT misslyckades helt, tycker jag, med att sätta den i perspektiv. Jag vet inte om det är författarna själva eller dokumentärmakarna som är orsak till att vinkeln var enastående genombrott som inte behöver ifrågasättas eller nyanseras. Kanske är det orättvist att kräva av Vetenskapens värld-redaktionen att de ska anlägga ett annat perspektiv än dokumentären de valt att sända. Eftersom att jag gärna vill vill att reportrar och journalister ska skriva entusiastiskt om genetisk forskning (inklusive helst min egen), så tvekar jag lite att skriva ner dem med arga brev. Förhoppningsvis tar de inte allt för illa upp.


Ficks, Courtney A., and Irwin D. Waldman. ”Candidate genes for aggression and antisocial behavior: a meta-analysis of association studies of the 5HTTLPR and MAOA-uVNTR.” Behavior genetics 44.5 (2014): 427-444.

Rautiainen, M. R., et al. ”Genome-wide association study of antisocial personality disorder.” Translational Psychiatry 6.9 (2016): e883.

Khera, Amit V., et al. ”Genetic Risk, Adherence to a Healthy Lifestyle, and Coronary Disease.” New England Journal of Medicine (2016).

(Samt en massa kandidatgenstudier om MAOA som jag länkar ovan.)

@sweden recap

So, a couple of weeks ago I tweeted from the @sweden account. This is a short recap of some things that were said, and a few links that I promised people. Overall I think it went pretty well. I didn’t tweet as much as some other curators, but much much more than I usually do. This also meant I did spend my lunch and coffee breaks looking at my phone. My tweets are collected here, if for some reason you’d care to read them.

Of course, tweeting from a rotating curation account is very different from the way I normally use Twitter. First, I read much more than I write. One of the main purposes of Twitter, for me, is to get a steady stream of links to read. That doesn’t really work on an account that follows much more and entirely different people. A lot of what I wrote was prepared monologue, but I don’t think that’s necessarily a bad thing. I follow a lot of people on Twitter for their monologues. Also, thankfully, a lot of people asked me questions! Another thing that struck me is that so few people were unpleasant. There were a few extreme right folks who wanted me to retweet their racist tweets, but only a few. Then, a few felt the need to tell me that I’m utterly boring, which is fine. Someone lamented the fact that all curators are uneducated about the proper use of Twitter (it’s probably to build your personal brand or something). Also, a certain Swedish celebrity got put on ignore so I wouldn’t have to see him tagging each tweet with ”@sweden”. But that was pretty much all.

I talked quite a bit about my research. I spent more or less a full day on the chicken comb as a sexual ornament and genetics of comb mass. We discussed domestication as an evolutionary process, tonic immobility, and how to measure gene expression for eQTL mapping. I also wrote about Kauai feral chickens … And what I actually do in a day nowadays, that is: writing R code.

I got a question about what to say to your creationist friend. I think this depends on what the creationist friend believes and what their objections to evolution are. Unfortunately, I don’t think there is a simple knock-down argument against all forms of creationism, except that evolution works really well and has a lot of evidence going for it. I certainly don’t think it will do to rely on methodological naturalism and say that ”creation would be a supernatural event and outside the scope of science”. First, because I don’t think that is how science works. Say if unicorns, miraculous healing, and species popping into existence without relation to other species were actually part of the world, wouldn’t we want to study that? Second, that will never convince anyone, except of the irrelevance of science to their worldview.

But I think there are a handful of things that creationists often take issue with. First, some don’t believe in sequence variants creating new functions. This is often described with slogans about information, and how it cannot be created by random mutation. I don’t think ”sequence information” is a particularly useful concept, and would much prefer to talk about function and adaptation. That is what is important, after all, organisms acquiring new adaptations. It turns out, new functions arising can be observed, particularly in microorganisms. Some really fun and well-studied example occur in the Long Term Evolution Experiment; see Richard Lenski’s blog which has explanatory posts and links to papers.

Second, the formation of species come up a lot in these discussions. This is a bit tricky, because it’s not always clear what constitutes different species. The definition most people have heard is probably that individuals belong to different species if they cannot have fertile offspring. But just think of asexually reproducing organisms. There, individuals belong to different species if they’re sufficiently different. So we already have what is needed to understand the formation of species in the evolution of new functions. When it comes to sexually reproducing organisms, there are examples of the evolution of reproductive isolation — cases where it seems to be ongoing or to have happened recently. (See for instance this paper on hybrid incompatibility in Mimulus guttatus; I have blogged about it, but only in Swedish)

Third, there is the question of relatedness between species. In particular, some creationists really hate the idea that humans are apes. I think it is important to emphasize a couple of things that evolution does not say about humans and other apes. By the way, this isn’t just confusing for creationists, but for everyone. Evolution does not mean that humans descend from extant apes. Look at this phylogenetic tree from Perelman & al 2011. This is just like a family tree, but of populations: we see how chimps and humans have a recent common ancestor population. This is different than claiming that we would descend from extant chimps. Of course, chimps have also changed since the common ancestor, although not in the same ways as humans. (Again, I’ve written about this before in Swedish.)


Speaking of unicorns, I of course celebrated unicorn Friday:

Someone asked whether you can keep fruit flies for amateur genetics at home. That should be quite possible, and I don’t see any real problems with it either. The fruit fly community has really strong culture of classical genetics with crosses and stocks. I don’t know if stock centres would deliver to private customers, but I don’t see why they wouldn’t — except for transgenic flies. It turned out, however, that transgenic flies was actually what the person asking was after. And of course, I can’t recommend that. I must say, I have mixed feelings about do-it-yourself biotechnology. On the one hand, some home molecular biology should be possible and rewarding. On the other hand, a lot of things routinely used in molecular labs are actually really dangerous if misused, and not just for the user. For example, when making any type of construct in transgenic bacteria, antibiotics and antibiotic resistance genes are the standard screening markers. They are used to pick out the bacteria that have incorporated the piece of DNA you care about. This is not the kind of stuff you want to use without proper containment. So, in the fly example, you would not only have to handle the flies, but also transgenic antibiotic resistant bacteria safely and legally. Then again, a lot of the genetics I care about does not involve any of that, and could very well be done in a basement.

The @sweden account caught me under a teaching week; otherwise, all of my photos would’ve been my computer, my pen and my coffee mug. Now I got to walk the followers through agarose gel electrophoresis and a little transformation of bacteria:

And, finally, Swedish spring:

Morning coffee: @sweden

This week, I’m tweeting from the @sweden account. It is a rotating account with a new Swede every week. I honestly have no idea who could have nominated me, but I’m flattered and happy. So far I think it’s going well. As I wrote on

I’m unlikely to present any great insights about the nature and meaning of Swedishness, but I hope I may be able to give you a new appreciation for the chicken comb.

I think I could probably just keep the week going by answering questions and comments, because there have been many good ones! We’ve been talking about domestication (of course), programming languages for data analysis, the bright but possibly distant future when quantitative genetics and systems biology come together, common misconceptions about genetics, what to say to your creationist friend etc.

Dagens rekommendation: Hans Rosling

TED talks är ofta inget vidare men det finns lysande undantag. Hans Roslings tal är några av dem. Ed Yong, som jag rekommenderade häromveckan, ett annat.

Se inte bara den här videon, utan leta runt lite på Youtube.

Några saker att lägga märke till:

Rosling använder inte vilken visualisering som helst; han använder en visualisering som är en polerad variant av ett enkelt diagram med prickar.

Han drar slutsatser från modeller, inte bara grafik. Dels lutar han sig på demografiska modeller, som såvitt jag förstår är mekanistiska modeller över hur populationen av människor kommer växa. Dels extrapolerar han trender i sina diagram. Utan att han säger det skulle jag tro att det skulle motsvara linjära modeller.

Förutom att han uppenbarligen funderat mycket på vilka illustrationer han ska använda, så är han bra på att kalibrera sina jämförelser och ställa dem i relation till begripliga saker. Det är inget som kommer ur siffrorna, utan en fråga om tolkning.

Och, viktig: Rosling tolkar sina modeller som orsakssamband, inte bara som associationer. Han är intresserad av frågor om vad människor borde göra och vad som kommer hända då. Det är inte heller något som går att utläsa ur siffrorna. Det kräver tolkning och antaganden om orsakssamband, men är en oumbärlig del av Roslings argument.