Har blandrashundar färre ärftliga sjukdomar än rashundar?

Ungefär såhär löd frågan:

Ärver blandrashundar samma ärftliga sjukdomar som de renrasiga hundar de härstammar ifrån?

Det är såklart svårt att säga något allmängiltigt. Hybrider, alltså korsningar av individer från olika populationer, kan nämligen bli väldigt annorlunda jämfört med sina föräldrar. I hybriderna träffas ju ibland genetiska varianter som vanligtvis inte brukar förekomma tillsammans i samma individ, och hybrider tenderar att bli heterozygota för många varianter. Så om varianterna ifråga råkar fungera så att heterozygoten får någon speciell egenskap eller att de interagerar med varandra på något sätt kan hybrider bli extrema på något sätt. Hybrider kan till exempel bli sjuka på något sätt (se ett exempel med hybridinkompatibilitet i gyckelblommor); om de blir särskilt starka och friska kallas det heteros.

När det gäller sjukdomsanlag beror det så klart på hur vanligt anlaget är i de olika populationer som blandrashundens föräldrar kommer ifrån. Om det är en sjukdomsvariant med enkelt dominant/recessivt arv så måste individen få anlaget från båda föräldrarna för att bli sjuk. Om det gäller en polygen sjukdom med många riskvarianter så minskar så klart risken ju färre av dem individen bär på. Så om det olika genetiska sjukdomar som är vanliga i olika raser, vilket verkar rimligt, så borde risken generellt bli mindre för blandrashundar än för rashundar.

Det var ungefär vad jag svarade då, om än väldigt mycket kortare, för jag var ganska trött. Så långt min spekulation: här kommer lite empiriska data! Bellumori & co (2013), Prevalence of inherited disorders among mixed-breed and purebreed dogs: 27,245 cases (1995-2010). Författarna har tittat veterinärjournaler från blandrashundar och rashundar som vårdats vid University of California-Davis Veterinary Medical Teaching Hospital och som haft olika sjukdomar med en genetisk komponent. Av 24 sjukdomar var det tio som var vanligare i renrasiga hundar, 13 ingen märkbar skillnad och en som var vanligare hos blandrashundar.

Sedan är det här en observationsstudie som kan påverkas av andra systematiska skillnader mellan hur många hundar som blir diagnostiserade grupperna än genetik. Till exempel är det inte orimligt att de som har en rashund kan vara mer på sin vakt efter sjukdomar som är vanliga i den rasen. Det kan också påverka resultaten av undersökningen.

Litteratur

Bellumori, Thomas P., et al. (2013) Prevalence of inherited disorders among mixed-breed and purebred dogs: 27,254 cases (1995–2010). Journal of the American Veterinary Medical Association 242 1549-1555.

ps.

Personen svarar: ”Om någon som studerat genetik säger ”borde väl” bevisar det att personen inte har så bra koll dessvärre…”

Förlåt, men om du vill ha svar utan ”kanske” och ”väl”, fråga inte en doktorand …

Epigenetik: epimutanter i backtrav

Cytosinmetylering av dna är den klassiska molekylära epigenetiska mekanismen: alltså, någonting som inte ändrar dna-sekvensen men som ändå kan gå i arv: från modercell till dottercell vid celldelning och ibland till och mellan geneationerna vid sexuell reproduktion. Det som händer är att en av de fyra kvävebaserna i dna (cytosin, C) kan ha en extra metylgrupp eller inte. Metyleringsstatusen förs vidare när dna kopieras. Så, varför kallas cytosinmetylering inte en sekvensändring? Det ändrar bevisligen på dna-molekylens kemiska sammansättning. Jo, men det ändrar inte komplementariteten mellan baserna; C passar fortfarande med G och inte med de andra. Det ändrar inte heller på aminosyrasekvensen i kodande sekvenser när de skrivs av till rna och sedan används till proteinsyntes. Däremot kan de ändra hur andra proteiner binder till dna och på så sätt fungera genreglerande. Inte för inte tittar epigenetiska studier väldigt ofta på dna-metylering.

Arabidopsis_thaliana

(Arabidopsis thaliana. Foto: Marco Roepers CC:BY-SA 3.0)

Epigenetik är intressant av flera anledningar: dels för att förstå hur celltyper i olika delar av organismen blir som de blir, dels för att det öppnar för intressanta transgenerationseffekter där saker som hänt föräldrarna eventuellt kan påverka avkomman och dels för den spännande tanken att dna-metylering skulle funka som ett extra lager av ärftlighet. Det skulle kunna fungera ungefär som genetik, men inte baserat på skillnader i dna-sekvens mellan individer utan på stabila skillnader i dna-metylering. Det finns några exempel, både hos djur och växter (Cubas m. fl. 1999), men de är en smula obskyra.

Häromveckan kom en artikel (Cortijo m.fl 2014) jag har väntat på sen i somras: den senaste i en serie experiment med en helt bisarr experimentpopulation som några galna (på ett bra sätt!) vetenskapare har kommit på. De har tagit fram en korsning av backtrav där alla individerna är genetiskt identiska (nästan helt) men har olika dna-metyleringsmönster. Detta därför att en av ursprungsväxterna i korsningen är en transgen planta som saknar en viktig gen som metylerar dna. Transgenen har de korsat ut, så avkomman har normal dna-metylering, men de har ändå ärvt olika metyleringsmönster från den ursprungsväxten. Det visar sig att flera egenskaper skiljer sig mellan individer med samma dna men olika dna-metylering, bland annat blomningstid och rotlängd. Det betyder att de egenskaperna kan påverkas av ärftliga dna-metyleringsskillnader. Även om de här skillnaderna är framtagna i labbet i en ganska artificiell situation visar det på att en skillnader i de här egenskaperna kan förklaras av epigenetik.

I den här artikeln har författarna gjort en metyleringsbaserad variant av genetisk kartläggning. De har alltså testat dna-metyleringen på regioner jämt utspridda i genomet (epigenetiska markörer!) och letat efter markörer associerade med egenskaperna. På så sätt hittar de kromosombitar som bör innehålla någon variant, i det här fallet en dna-metyleringsvariant, som orsakar en skillnad i egenskapen. Det är precis som genetisk kartläggning men med epigenetiska varianter istället för genetiska. Sedan får författarna precis samma svårigheter som en alltid får med genetisk kartläggning: de har associerade regioner på kromosomer. Vilken av alla gener i området är det som påverkats av en variant? Och, i det här fallet, vilken sekvens är det som är metylerad eller inte metylerad och får något att hända? Hur som helst kan de kartlägga de stabila epigenetiska varianter som kan förklara skillnader mellan individer i komplexa egenskaper som blomningstid. Nu börjar det likna något.

Litteratur

Cortijo, Sandra, et al. (2014) Mapping the Epigenetic Basis of Complex Traits. Science 343 1145-1148.

Using R: barplot with ggplot2

Ah, the barplot. Loved by some, hated by some, the first graph you’re likely to make in your favourite office spreadsheet software, but a rather tricky one to pull off in R. Or, that depends. If you just need a barplot that displays the value of each data point as a bar — which is one situation where I like a good barplot — the barplot( ) function does just that:

some.data <- rnorm(10, 4, 1.5)
names(some.data) <- 1:10
barplot(some.data)

barplot

Done? Not really. The barplot (I know some people might not use the word plot for this type of diagram, but I will) one typically sees from a spreadsheet program has some gilding: it’s easy to get several variables (”series”) of data in the same plot, and often you’d like to see error bars. All this is very possible in R, either with base graphics, lattice or ggplot2, but it requires a little more work. As usual when it gets a bit more fancy, I prefer ggplot2 over the alternatives. Once upon a time when I started with ggplot2, I tried googling for this, and lots of people have answered this question. I was still confused, though. So, if you’re a new user and reading this, please bear with me and I’ll try to demonstrate what all the steps are good for. Whether it’s a good statistical graph or not, the barplot is actually a nice example of ggplot2 in action and will demonstrate some R principles.

Let us take an example: Say that we start with a pretty typical small dataset with two variables that we’ve measured in four groups. Now we’d like a barplot of the group means and error bars for the means.

0. Start a script

Making the plot will take more than a couple of lines, so it’s a good idea to put everything in a script. Below I will split the script into chunks, but the whole thing is on github. We make a new R file and load ggplot2, plyr and reshape2, the packages we will need:

library(ggplot2)
library(plyr)
library(reshape2)

1. Simulate some data

In the case of real barplot this is where you load your data. You will probably have it in a text file that you read with the read.table( ) family of functions or RStudios Import dataset button (which makes the read.table call for you; if you don’t feel like late nights hunched over the read.table manual page, I recommend it). Simulating data might look something like this:

n <- 10
group <- rep(1:4, n)
mass.means <- c(10, 20, 15, 30)
mass.sigma <- 4
score.means <- c(5, 5, 7, 4)
score.sigma <- 3
mass <- as.vector(model.matrix(~0+factor(group)) %*% mass.means) +
  rnorm(n*4, 0, mass.sigma)
score <- as.vector(model.matrix(~0+factor(group)) %*% score.means) +
  rnorm(n*4, 0, score.sigma)
data <- data.frame(id = 1:(n*4), group, mass, score)

This code is not the tersest possible, but still a bit tricky to read. If you only care about the barplot, skip over this part. We define the number of individuals per group (10), create a predictor variable (group), set the true mean and standard deviation of each variable in each group and generate values from them. The values are drawn from a normal distribution with the given mean and standard deviation. The model.matrix( ) function returns a design matrix, what is usually called X in a linear model. The %*% operator is R’s way of denoting matrix multiplication — to match the correct mean with the predictor, we multiply the design matrix by the vector of means. Now that we’ve got a data frame, we pretend that we don’t know the actual values set above.

  id group       mass    score
1  1     1  4.2367813 5.492707
2  2     2 16.4357254 1.019964
3  3     3 19.2491831 6.936894
4  4     4 23.4757636 3.845321
5  5     1  0.9533737 1.852927
6  6     2 19.9142350 5.567024

2. Calculate means

The secret to a good plot in ggplot2 is often to start by rearranging the data. Once the data is in the right format, mapping the columns of the data frame to the right element of the plot is the easy part. In this case, what we want to plot is not the actual data points, but a function of them — the group means. We could of course subset the data eight times (four groups times two variables), but thankfully, plyr can do that for us. Look at this piece of code:

melted <- melt(data, id.vars=c("id", "group"))
means <- ddply(melted, c("group", "variable"), summarise,
               mean=mean(value))

First we use reshape2 to melt the data frame from tabular form to long form. The concept is best understood by comparing the output and input of melt( ). Compare the rows above to these rows, which are from the melted data frame:

   id group variable      value
1   1     1     mass  4.2367813
2   2     2     mass 16.4357254
3   3     3     mass 19.2491831
4   4     4     mass 23.4757636

We’ve gone from storing two values per row (mass and score) to storing one value (mass or score), keeping the identifying variables (id and group) in each row. This might seem tricky (or utterly obvious if you’ve studied database design), but you’ll soon get used to it. Trust me, if you do, it will prove useful!

The second row uses ddply (”apply from data frame to data frame”) to split up the melted data by all combinations of group and variable and calculate a function of the value, in this case the mean. The summarise function creates a new data frame from an old; the arguments are the new columns to be calculated. That is, it does exactly what it says, summarises a data frame. If you’re curious, try using it directly. It’s not very useful on its own, but very good in ddply calls.

3. Barplot of the means

Time to call on ggplot2! One has a choice between using qplot( ) or ggplot( ) to build up a plot, but qplot is the easier. We map the mean to y, the group indicator to x and the variable to the fill of the bar. The bar geometry defaults to counting values to make a histogram, so we need to tell use the y values provided. That’s what setting stat= to ”identity” is good for. To make the bars stand grouped next to each other instead of stacking, we tell set position=.

means.barplot <- qplot(x=group, y=mean, fill=variable,
                       data=means, geom="bar", stat="identity",
                       position="dodge")

means.barplot

4. Standard error of the mean

Some people can argue for hours about error bars. In some cases you will want other types of error bars. Maybe the inferences come from a hierarchical model where the standard errors are partially pooled. Maybe you’re dealing with some type of generalised linear model or a model made with transformed data. See my R tutorial for a simple example with anova. The point is that from the perspective of ggplot2 input to the error bars is data, just like anything else, and we can use the full arsenal of R tools to create them.

means.sem <- ddply(melted, c("group", "variable"), summarise,
                   mean=mean(value), sem=sd(value)/sqrt(length(value)))
means.sem <- transform(means.sem, lower=mean-sem, upper=mean+sem)

First, we add a standard error calculation to the ddply call. The transform function adds colums to a data frame; we use it to calculate the upper and lower limit to the error bars (+/- 1 SEM). Then back to ggplot2! We add a geom_errorbar layer with the addition operator. This reveals some of the underlying non-qplot syntax of ggplot2. The mappings are wrapped in the aes( ), aesthetics, function and the other settings to the layer are regular arguments. The data argument is the data frame with interval limits that we made above. The only part of this I don’t like is the position_dodge call. What it does is nudge the error bars to the side so that they line up with the bars. If you know a better way to get this behaviour without setting a constant, please write me a comment!

means.barplot + geom_errorbar(aes(ymax=upper,
                                  ymin=lower),
                              position=position_dodge(0.9),
                              data=means.sem)

barplot.means.sem

Does this seem like a lot of code? If we look at the actual script and disregard the data simulation part, I don’t think it’s actually that much. And if you make this type of barplot often, you can package this up into a function.

Vad gör IRX3?

Okej, så det verkar som att associationen mellan intron 1 av FTO och övervikt samt diabetes förklaras av en reglerande effekt på granngenen, IRX3. Men vad gör IRX3 då? Hur är den inblandad i hur tung en blir? Ja, det är det ingen som riktigt vet. Först och främst har den en siffra i namnet, så alla kan gissa att det är den tredje i en familj av IRX-gener. Det är ganska typiskt för gener att de förkommer i familjer av liknande gener som bildats av duplicerande mutationer någon gång under den evolutionära historiens gång. De flesta djur har flera IRX-gener. Ryggradsdjur har sex stycken organiserade i två kluster på varsin kromosom. (Kerner m. fl. 2009) En bit efter FTO och IRX3 i människans kromsom 16 kommer IRX5 och sedan IRX6.

IRX står för Iroquois-familjen efter en muterad bananfluga vars borst tydligen ser ut som en tuppkamsfrisyr. De innehåller en homeodomän, ett återkommande motiv hos många proteiner som reglerar genuttryck. De har betydligt fler och intressantare funktioner än utvecklingen av borst: de är med och bygger upp kroppens former i flugembryon och nervsystemets och hjärtats utveckling hos ryggradsdjur. Sannolikt utövar familjen de funktionerna genom att reglera en väldigt massa andra gener, som transkriptionsfaktorer plägar göra. (Cavodeassi m. fl. 2001)

Så familjen är inblandad lite här och där och den uttrycks lite överallt. Titta på tabell 1 från Houweling m fl. (2001; artikeln är fritt tillgänglig och första tabellen kommer nästan direkt) som sammanfattar mätningar av genuttryck i olika delar av musembryon. IRX3 ligger i IrxB-klustret, så ett B i tabellen betyder att den uttrycks tillsammans med de andra i samma kluster. Etta A betyder är samma sak men för det andra klustret. Ett E betyder att den avviker från de andra två i klustret; ett I betyder att alla uttrycks lika mycket och ett streck att den litet eller inget uttryck. Det är flest A, B och I. Det vill säga: flera familjemedlemmar tenderar att uttryckas tillsammans, särskilt de i samma kluster och särskilt IRX3 och 5. Det här är inte heller så konstigt, men det gör det svårare att reda ut vad en enskild IRX-gen håller på med.

Som en liten illustration: möss utan IRX3 verkar enligt Smemo & co (2014; alltså den artikeln som föranledde den här serien poster) klara sig bra utan konstiga defekter, mer än att de är små och inte blir tjocka av fett foder. Men om hela IrxB-klustret tas bort (och tre andra gener, i och för sig, vilket naturligtvis kan vara en del av orsaken) blir resultatet stackars möss med diverse skelettdefekter (Peters m. fl. 2002). Både IRX3 och IRX5 verkar vara nödvändiga för hjärtat på olika sätt: IRX5 för att hjärtat ska uttrycka rätt jontransportprotiner (Costantini m. fl. 2005) och IRX3 för att det ska bilda cellkontakter och sprida nervsignalen när det ska slå (Zhang m. fl. 2011).

Efter det ovanstående verkar det ju inte så långsökt att Smemo & co tittar på IRX3-uttryck i hjärnan. Deras hypotes om hur IRX3 påverkar vikten är att den skulle mixtra med hjärnans signallering till fettvävnaden och öka förbränningen. Finns det något annat i litteraturen som knyter IRX3 till ämnesomsättning eller aptit? Ja! Redan 2010 kom nämligen en artikel som hävdade att FTO-association kanske förklarades av IRX3-reglering (Ragvin m. fl. 2010). Deras angreppssätt för att hitta reglerande regioner var inte som Smemo & co att fånga in kromosombitar som interagerar, utan att titta efter evolutionära mönster. Viktiga delar av genomet tenderar att konserveras därför att naturligt urval motverkar mutationer som ändrar deras funktion. Oviktiga delar, vilket är lejonparten av genomet, kan muteras sig i stort sett hur mycket som helst.

De hittade konserverande icke-kodande sekvenser nära FTO och testade dem i ett så kallat reporterexperiment, vilket betyder att en sätter in sekvensen i någon organism tillsammans med någon gen som är lätt att detektera när den uttrycks. I det här fallet använde de ett grönt fluorescerande protein (som heter GFP … väldigt fantasifullt) och zebrafiskembryon. Om den konserverade sekvensen verkligen är reglerande kommer cellerna alltså fluorescera grönt när de belyses med ljus av rätt våglängd. Mycket riktigt, de associerade varianterna ligger i reglerande sekvenser som är aktiva i delar av embryot där IRX3 också är aktivt, bland annat i bukspottkörteln.

Bukspottkörteln, ja. Alla diabetesintresserade borde höja på ögonbrynen nu. Författarna prövade att slå ut IRX3 i fiskembryon och fann att det påverkade bildningen av både insulin-, ghrelin- och glukagonproducerande celler. Alla tre är viktiga hormoner för ämnesomsättningen. Insulin och glukagon reglerar blodsocker och ghrelin reglerar aptit. Kort och gott: Smemo & co och och Ragvin & co har båda resultat som tyder på att det är IRX3 som är den viktiga genen. Men de föreslår olika mekanismer, och det kan mycket väl vara både och.

Litteratur

Kerner & al (2009) Evolutionary history of the iroquois/Irx genes in metazoans. BMC Evolutionary biology.

Cavodeassi & al (2001) The Iroquois family of genes: from body building to neural patterning. Development.

Houweling & al (2001) Gene and cluster-specific expression of the Iroquois family members during mouse development. Mechanisms of development.

Costantini & al (2005) The Homeodomain Transcription Factor Irx5 Establishes the Mouse Cardiac Ventricular Repolarization Gradient. Cell.

Zhang & al (2011) Iroquois homeobox gene 3 establishes fast conduction in the cardiac His–Purkinje network. PNAS.

Peters & al (2005) The mouse Fused toes (Ft) mutation is the result of a 1.6-Mb deletion including the entire Iroquois B gene cluster. Mammalian genome.

Ragvin & al (2010) Long-range gene regulation links genomic type 2 diabetes and obesity risk regions to HHEX, SOX4, and IRX3. PNAS.

Smemo & al (2014) Obesity-associated variants within FTO form long-range functional connections with IRX3.
Nature

Den där artikeln om övervikt, FTO och IRX3

Detta har hänt: Hur mycket människor väger har en genetisk komponent och det finns flera studier som kopplar varianter i en gen som heter FTO till övervikt och typ 2-diabetes. Precis vilken den orsakande varianten är och hur den påverkar vikt är inte klart. Häromdagen publicerades en vetenskaplig artikel med resultat som tyder på att varianterna, även om ligger i FTO, kanske utövar sin effekt genom att påverka regleringen av en helt annan gen som ligger en bra bit bort, IRX3. Både FTO och IRX3 verkar ha effekter på vikt i experiment med genetiskt förändrade möss. Förvirringen om vad som egentligen pågår blir alltså ännu större, om än på en högre nivå. I fredags skrev jag lite om detta men utan att gå in på vad artikeln egentligen handlade om. I den här posten ska vi skruva upp genetiknördigheten en smula. Låt oss börja med en bild: så här ser området med FTO och IRX3 ut i UCSC-genomläsaren. Det är en bit av det mänskliga referengenomet, kromosom 16, med kända gener utritade.

hgt_genome_7723_756580

Först och främst, vad är problemet egentligen? Det finns en association till varianter som ligger i FTO. De ändrar i och för sig inte på den kodande delen av genen, men de ligger i första intronen, där det rätt ofta finns reglerande sekvenser. (Titta på spåren märkta ”FTO” i bilden ovan. De kodande bitarna är de tjockare lådorna och intronerna är strecket emellan. IRX3 är nästa gen längs kromosomen.) FTO är den uppenbara kandidaten. Tidigare har folk använt två sorters experiment för att pröva om FTO faktiskt är den orsakande genen och de har fått resultat som förefaller motsäga varandra. Å ena sidan, att mixtra med genen i möss. Det är ett sätt att titta på genens normala funktion: om mössen ökar eller minskar i vikt i jämförelse med kontrollmöss har den antagligen med viktreglering att göra … på något sätt. Och mycket riktigt: möss utan FTO blir magra och möss som uttrycker extra mycket FTO blir stora.

Å andra sidan, genuttryckskartläggning. Det vill säga: Om de genetiska varianterna verkligen har en reglerande effekt borde uttryck av FTO, alltså hur mycket av genen som tillverkas, också vara associerat med samma varianter. Men så är det inte. Så även om FTO visst är inblandat i vikt på något sätt, så verkar det inte vara den underliggande genen till associationen i människor. Om inte det viktiga händer i någon vävnad vid någon tidpunkt där ingen ännu tittat, vill säga.

Hur får en då veta om varianterna kanske reglerar någon annan gen? Ett sätt är att leta efter vilka delar av dna-strängen som är fysiskt nära varandra i cellkärnan. Det där kan behöva en förklaring. Vanligtvis när jag skriver att sekvenser är ”nära” varandra menar avståndet längs dna-strängen. Men när kromosomen är i sitt verkliga tillstånd i cellkärnan ligger den delvis ihoplindad, delvis utsträckt och reglerande sekvenser som påverkar varandra är också nära varandra i rymden. Den teknik författarna använt, circular chromosome conformation capture, går ut på att fånga in sådana sekvensbitar som rör vid varandra, sekvensera dem och på så sätt bygga upp en karta över vilka kromosombitar som har reglerande interaktioner. Det är förstås inte självklart att två bitar som råkar vara nära varandra har någon sorts reglerande interaktion, men om de förekommer tillsammans tillräckligt pekar det i alla fall i den riktningen.

De undersökte den del av FTO-genen som är associerad med övervikt i människor i vävnadsprover från möss. Det visar sig den FTO-biten (47 000 baser) ofta befinner sig nära inte bara området före själva FTO-genen, vilket sannolikt innehåller genens viktigaste reglerande sekvens (promotorn), utan också med IRX3, som ligger en ganska bra bit bort. Och när de sedan tog fram genetiskt förändrade IRX3-knockout-möss visade de sig väga mindre och när de sattes på högfettdiet gå upp mindre i vikt och bli mindre insulinresistenta än vanliga möss. Det är de här genetiskt förändrade mössen som en av författarna, Chin-Chung Hui, beskrev som ”helt resistenta mot fetma orsakad av fet mat” (TT). Dessutom, att mixtra med IRX3 verkar inte ha någon effekt på uttrycket av FTO. Den förefaller verka oberoende av FTO.

Så långt mössen! Författarna tittade på genuttryck i mänsklig hjärna: är varianterna som kopplats till övervikt också associerade med genuttryck? Som förut, ingen association med uttryck av FTO, men med IRX3! Effekten är inte överväldigande tydlig, men det tyder i alla fall på att varianterna i FTO faktiskt har en reglerande effekt på IRX3.

Vart leder allt det här? Sammantaget verkar IRX3 vara en bättre kandidat till att vara den orsakande genen än FTO. Även om tidigare resultat ganska klart visar att FTO också har något med vikt att göra, så verkar det som att just den här varianten, även om den ligger i en intron av FTO faktiskt utövar sin effekt genom att reglera en annan gen. Så rörigt kan det vara.

Litteratur

Smemo & al (2014) Obesity-associated variants within FTO form long-range functional connections with IRX3.
Nature

Dagens rekommendation: En berättelse från labbet

Häromdagen såg jag en mycket trevlig liten artikel (via Branko Rihtman på twitter), Sorting Out the FACS: A Devil in the Details (Hines m. fl 2014). Det är en kort berättelse från labbet i informell ton. Det handlar om två grupper som bestämde sig för att samarbeta om ett bröstcancerprojekt och använde flödescytometri för att studera bröstvävnadens sammansättning. Flödescytometri är en teknik där en låter celler passera en och en genom ett tunt rör, räknar dem, belyser dem med laser och mäter ljuset som kommer tillbaka. Och eftersom det går att koppla fluorescenta molekyler, som lyser tillbaka med på våglängder när de blir belysta, till antikroppar, som binder väldigt specifikt till saker som finns på cellens yta, så kan en flödescytometer räkna hur många av olika celltyper som finns i ett prov. Det enda som krävs är att lösa upp vävnadsproverna så cellerna kommer loss och låter sig sugas upp. Och det var det steget som visade sig vara problematiskt.

Båda laboratorierna hade sina egna protokoll (det är så vi labbfolk kallar dem; ”recept” är egentligen ett bättre uttryck) för att isolera cellerna från vävnadsprover. Båda metoderna gav konsekventa resultat om det upprepades, men resultaten överensstämde inte med resultaten från det andra laboratoriet. Detta till och med när forskarna träffades i samma laboratorium och använde sitt eget protokoll sida vid sida på varsin bit av samma vävnadsprov. Skillnaden? Inget med den högteknologiska maskinen, inget med sammansättningen på odlingsmediet utan hur kraftig omrörning vätskan fick medan vävnaden står på skakning och bryts ner av enzymer … Laborativt arbete kan vara svårt och metoder kan spela stor roll.

Litteratur

Hines & al (2014) Sorting Out the FACS: A Devil in the Details. Cell reports.

Dagens rekommendation: rosa bär av bakterier

Jag gillar verkligen när författare till vetenskapliga artiklar skriver om historien bakom en artikel: vad de gjorde, lite hur arbetet utvecklades och, framför allt, varför ämnet är så roligt. Lizzy Wilbanks, som doktorerar i mikrobiologi, har skrivit en sådan om sin artikel Microscale sulfur cycling in the phototrophic pink berry consortia of the Sippewissett Salt Marsh (Wilbanks & co 2014). Det hon studerar är en sorts aggregat av bakterier som lever ihop och bildar rosa klumpar som ser ut som och kallas ”pink berries”. Bären består av svavelbakterier som ger dem den rosa färgen och andra bakterier som använder sulfatet de producerar. Det är ett kul exempel på samarbete mellan olika bakterier. Så gå och läs hela!

Vad menas med fetma-gen? FTO, IRX3 och alltings rörighet

”Fetma-gen upptäckt. Man blir aldrig fet om man saknar den”, stod det. Och jag tänkte: jag är tvungen att blogga om det här, eller hur? Det handlar om genen FTO, som sedan tidigare är känd för att vara kopplad till övervikt i associationsstudier. Det vill säga: vissa människor har en variant av FTO som gör dem, i medeltal, tyngre än de som har en annan FTO-variant. FTO är absolut inte den enda förklaringen till ärftliga skillnader i vikt, men den har en hyfsat stor effekt, tydligen i medeltal 3 kg skillnad mellan homozygoterna. Frågan är bara hur det går till? Vad sjutton är det genen gör, och vad är det för skillnad på varianten som gör en tyngre och den som gör en lättare? En ny artikel (Smemo m.fl 2014) tyder på att varianterna, även om de ligger i FTO, kanske utövar sin effekt genom att reglera en helt annan gen, IRX3. TT:s text av Johan Nilsson (DN, DI, SvD) är inte så illa:

Upptäckten, som presenteras i tidskriften Nature, visar samtidigt hur komplicerad arvsmassans reglering kan vara. /…/ Forskare från flera länder började då undersöka saken närmare och har nu upptäckt att små delar inuti FTO-genen i själva verket styr en helt annan gen: IRX3, som ligger hundratusentals baspar bort från FTO-genen.

Det är ofta bra att tänka sig två typer av genetik: Genetik i den första bemärkelsen (obs, numreringen är min egen och inte tillämplig i något annat sammanhang) handlar om molekylära gener och deras funktion utan vidare hänsyn till genetisk variation. Det är den typen av data en får sig till livs genom att slå upp gener i de flesta databaser, en beskrivning av proteinet som den kodar för och vilka typer av reaktioner eller processer det deltar i. Det är den typen av information som genernas jobbiga akronymer till namn ofta står för. Det är sådant en får veta genom att slå ut en gen i någon försöksorganism och se vilka processer som inte fungerar utan den. Genetik i den andra bemärkelsen handlar om genetisk variation: när en del individer har en viss variant av en gen, andra individer har en annan, och de varianterna fungerar olika. Det är den här typen av genetik som förklarar ärftliga skillnader mellan individer och populationer och den typ av data som kommer ur genetisk kartläggning. Det handlar naturligtvis också om geners funktion, men mer specifikt hur genetiska varianter ändrar geners funktion.

Den här artikeln kombinerar experiment faller i båda kategorierna. Syftet är att förklara hur genetiska varianter i FTO som upptäckts i associationsstudier fungerar, vilket är genetik i den andra bemärkelsen. Men för att göra det använder de bland annat genetiskt modifierade möss utan IRX3, och det är ett experiment i den första kategorin. När det står så här (TT-artikeln) handlar det alltså om genetiskt förändrade knock-out-möss:

Möss som saknar genen förblir smala, nästan oavsett hur mycket fet mat de äter. Dessutom tycks de inte utveckla diabetes.

Det är alltså inte en beskrivning av något en kan och bör göra i människor som någon sorts bantningskur. Det är utfallet i ett experiment som visar att IRX3 har något med viktreglering att göra. Okej, men vad har den med viktreglering att göra och hur hänger de två generna FTO och IRX3 ihop med varandra? Artikeln ifråga innehåller imponerande experiment om just detta. Den otåliga läsaren kan titta vidare på själva artikeln, men jag tänkte återkomma om några dagar med en sammanfattning.

Litteratur

Smemo & al (2014) Obesity-associated variants within FTO form long-range functional connections with IRX3.
Nature

Morning coffee: scripting language

Several people have asked: what scripting language should biologists learn if they are interested in doing a little larger-scale data analysis and have never programmed before? I’m not an expert, but these are the kinds of things I tend to say:

The language is not so important; the same principles apply everywhere. Use what your friends and colleagues use so you can get help from them. I believe most people would answer Python. I would answer R. Don’t believe people who tell you that R is not a serious language. You’re already familiar with analysing small datasets in a statistics program. You can do that in R too, and then the step to writing code and handling larger projects is actually very short. Your data will very likely come in tables, and R is very good at that. You’ll also want pretty graphs, and R is very good at that too. Regardless, have a look at the other common languages as well. Practice working from a terminal.

Åtminstone tre sorters osäkerhet

Någon gång i somras publicerade Cahill & co (2013) en vetenskaplig artikel om hur att äta eller inte äta frukost samt att äta sent på kvällen påverkar risken för kranskärlssjukdom. Ja, jag skriver ”påverkar”, för orsakssamband är precis det intressanta här. Även om författarna är duktiga forskare och medvetna om att association inte nödvändigtvis betyder klara orsakssamband, så är det vad vi vill veta. Inte om människor som tenderar att äta sent på kvällen sådär i allmänhet också tenderar att bli sjuka, utan om vi ska låta bli att äta sent på kvällen för att inte bli sjuka.

Men som alla vet är det där med orsak och verkan inte helt lätt — och det här var alltså en epidemiologisk observationsstudie där är det kan vara synnerligen knivigt. Men vad ska en göra då? Folk som slumpvis delas upp i grupper och tilldelas olika kost kan ju bara tänkas stå ut med det en kortare tid, så för att få veta något långtidseffekter på människor finns det inget annat sätt.

Jag tänker inte skriva så mycket om själva artikeln utan ta den som exempel på att det finns minst tre viktiga typer av osäkerhet som alla som analyserar och tolkar resultaten på något sätt behöver förhålla sig till. Artikeln, den här sammanfattningen, DN och Expressen gör det i olika grad och olika framgångsrikt.

1. Modellerad osäkerhet i skattningarna.

Den här typen av nog lättast att hantera — en statistisk metod värd namnet, oavsett allt annat, ger alltid någon sorts uppskattning av osäkerhet. Ibland uttrycks den i form av en sannolikhet men i det här fallet som ett intervall. Intervallet visar vilka värden som i någon mån är förenliga med data. I artikelns sammanfattning står intervallet 1,06-1,53 för riskkvoten som jämför de som äter frukost och inte — alltså en förhöjd risk på mellan 6% och 53%. Varken Medpage Today eller svenska tidningar uppger något annat än punktskattningen 27%. På ett sätt är det begripligt, för vad ska vi göra med intervallet? Konstatera att osäkerheten är stor, att 53% är en extremt stor riskökning men att 6% fortfarande är en hel del?

Å andra sidan, när osäkerheten är så här stor är det fånigt och hyfsat vilseledande att bara skriva 27% som om det vore en säker siffra. En mening om statistisk osäkerhet skulle nog gjort mer nytta för DN:s läsare än en om vad resultaten betyder för den diet som för tillfället är på modet. (Obs: Lita aldrig på bloggare i kostfrågor. Inte mig heller.) Det finns fler exempel, så klart. Härförleden skrev jag om en artikel om inflammationshämmande antikroppar som rapporterade en skillnad som mycket väl skulle kunna vara noll som om den vore ett starkt överraskande resultat. Eller ta Aftonbladets artiklar om sexuella vanor i somras som rapporterade ett gäng medelvärden men berättade väldigt lite om variationen inom grupper.

2. Osäkerhet som har med studiens upplägg att göra.

Här blir det genast svårare. Tyvärr räcker det inte alltid att titta på resultat och uppskattad osäkerhet för att veta om resultatet är trovärdigt. Ibland behöver en analysera studiens design och utförande. Kan den verkligen besvara  den fråga den är satt att besvara? En del av analysen kan vara att beräkna styrka, vilket handlar om ifall urvalet är stort nog och variationen liten nog för att det ska gå att detektera en effekt av rimlig storlek. Styrkeberäkningar kräver alltså att vi gör antaganden om vad det är vi väntar oss hitta och vad som är rimligt — och helst att vi tänker till i förhand.

Det finns flera problem med att försöka dra slutsatser från ett för litet material: en kan missa effekter som finns där eftersom att de drunknar i bruset, men vad som är ännu värre: de effekter som faktiskt är stora nog att märkas kommer ofta vara överskattningar och orimligt stora. Den här artikeln är i alla fall inget litet utgångsmaterial: omkring 27000 individer totalt, men när det kommer till att äta sent på natten är det bara 313 individer kvar som har den vanan.

Studien visade också att en sen måltid eller nattlig räd i kylskåpet är ännu värre för hjärthälsan än att hoppa över frukosten. Männen som uppgav att de åt efter att ha gått till sängs löpte 55 procents högre risk för hjärtsjukdom. (DN)

När jag läste det här tänkte jag ungefär: Skojar ni? 30% är stort nog, men 55%! Men den uppfattning att baserades helt på mitt eget huvud och uppfattningen att hälsa är komplicerat och att effekter borde vara små. Men lita inte på mig! Poängen är att vad som är rimligt går att studera. Om en tittar på ett par metaanalyser (alltså en studie som sammanställer resultaten många tidigare studier) av risken för kranskärlssjukdom finns bland annat: diabetes 1,9 (för män; för kvinnor 2,6; Lee & al 2000); passiv rökning 1,2-1,3 (He & al 1999) och 0,8 för de som äter mycket frukt och grönsaker (He & al 2007 ). Så frukost eller ej skulle vara ungefär jämförbart med passiv rökning; att äta sent värre, men inte lika illa som diabetes. Det kanske är rimligt; vad vet jag. Om 313 individer i högriskgruppen ger tillräcklig styrka för att trovärdigt kunna skatta lägre skillnader är inte lätt att veta när artikeln inte rapporterar någon formell styrkeanalys. Om inte är det stor risk att överskatta effekten.

Till studiens upplägg hör inte bara storleken utan frågan om systematiska fel. Fånigt exempel: den som vill uppskatta hur stor andel av Norrköpingsborna som håller på Vita hästen bör inte bara intervjua de som kommer ut från Himmelstalundshallen. En vanlig kritik mot olika typer av experimentell forskning på människor är att den använder folk som är WEIRD (”western, educated, and from industrialized, rich, and democratic countries … vita, välutbildade från industrialiserade, rika och demokratiska länder”) — kort och gott, det kan finnas skäl att ifrågasätta den frivilliga universitetsstudenten som modell för hela mänskligheten. Det finns en annan viktig del också, efter urvalet, nämligen förklaringsvariablerna (ovan: att äta frukost eller inte) och hur de hör ihop med andra variabler. Om en gör ett experiment går det ju att slumpvis tilldela försökspersoner att äta frukost eller inte äta frukost. Det kallas randomisering. Då kan en vara ganska säker på att isolera just effekten av frukost och inte en massa andra saker. Men i studien ovan är det ju inte fråga om slumpvis tilldelade frukostar och sena nätter, utan folks faktiska vanor. Det är ju möjligt och troligt att människor som hoppar över frukost också har andra vanor, som kanske inte är så hälsosamma, som påverkar deras risk för hjärtsjukdom. Och det för oss till den tredje typen av osäkerhet:

3. Osäkerhet om orsak och verkan.

Svårast. Jävligt svårt! Här är inte ens de lärde överens om hur en ska räkna alla gånger. Det finns i alla fall bra statistiska verktyg för att försöka hantera flera variabler som påverkar varandra: olika typer av statistiska modeller med olika sätt att ”justera för” variabler. För att fortsätta tanken från ovan: Författarna vill jämföra risken för hjärtsjukdom hos de som äter frukost och de som inte gör det, men det kan vara så att grupperna också skiljer sig på andra sätt som kan påverka risken för hjärtsjukdom: till exempel ålder och diet. Därför justerar de för demografi, diet och några livsstilsvariabler som de känner till om deltagarna. Det betyder att bygga en modell som inkluderar de variablerna förutom frukostvanor. Om modellen är bra så kan de uppskatta skillnaden mellan frukostätarna och frukosthopparna och ha viss kontroll på att den inte beror på de andra variablerna.

Men samtidigt går det inte att justera för vad som helst och hur som helst. I artikeln och i sammanfattningen jag länkade ovan står det att

The relationships between coronary heart disease and both skipping breakfast and eating late at night became nonsignificant after adjustment for potential mediators …

Författarna prövar alltså att justera för några ”potential mediators” i det här fallet är bland annat högt blodtryck. Att skillanden ”became nonsignificant” betyder att justeringen får den uppskattade skillnaden att krympa (så att det 95%-iga intervallet inte utesluter att effekten är noll). Vad betyder det? Det författarna menar med potentiellt medierande variabler är saker som orsakar hjärtsjukdom men som i sin tur skulle kunna påverkas av frukostvanor. Om ingen frukost ger högre blodtryck som ger högre risk för hjärtsjukdom borde uppskattningen av riskökningen mellan ingen frukost och frukost minska om vi justerar för blodtryck. De använder alltså justeringen som ett sätt att pröva om en del av skillnaden kan förklaras av högre blodtryck.

Men det gäller att hålla tungan rätt i munnen … Om en ska justera eller inte beror på orsakssambanden mellan variablerna. Om vi missar att justera för något som skiljer grupperna kan det ge helt fel resultat. Om vi justerar för något som är en följd av det vi är intresserade av riskerar vi att justera bort den intressanta effekten. Vilken uppskattning, ojusterad eller inte, som är den rätta beror på vad som är sant om fenomenet ifråga. Så, lite som att en behöver veta något om vilka effekter som är rimliga för att begripa effektstorlekar så måste vi redan veta något om orsak och verkan för att kunna resonera om det. (Pearl 2014)

Litteratur

Cahill & al (2013) Prospective Study of Breakfast Eating and Incident Coronary Heart Disease in a Cohort of Male US Health Professionals Circulation

He & al (1999) Passive Smoking and the Risk of Coronary Heart Disease — A Meta-Analysis of Epidemiologic Studies New England journal of medicine

He & al (2007) Increased consumption of fruit and vegetables is related to a reduced risk of coronary heart disease: meta-analysis of cohort studies Journal of human hypertension

Lee & al (2000) Impact of diabetes on coronary artery disease in women and men: a meta-analysis of prospective studies Diabetes care

Pearl (2013) Understanding Simpson’s Paradox. Förtryck på författarens webbsida