Som Gunnar påpekade borde vi behandla flerfaldiga statistiska jämförelser — i all enkelhet, som statistiska amatörer. Låt oss titta på Manhattandiagrammet från förra posten igen:
På x-axeln kommer alltså SNP:arna i den ordning de förekommer i genomet, kromosom för kromosom. Y-axeln skrev jag visade p-värde, men det är inte riktigt sant. Skalan är logaritmisk och den visar egentligen den negativa tiologaritmen av p-värdet, alltså hur många gånger man måste dela ett med tio för att få p-värdet i fråga.
Gränsen där punkterna börjar bli röda, och SNP:arna betraktas som signifikant associerade med egenskapen (i det här fallet fräknar) infaller ungefär när -log10(p-värde) är 8 (närmare bestämt 8,4). Det innebär ett mycket litet p-värde, närmare bestämt .
Det är hög tid att fundera på vad det här p-värdet är. Inom statistisk hypotesprövning (vilket är ett sätt att resonera statistiskt; det finns andra) ställer vi alltid en hypotes (den vi vill pröva) mot en nollhypotes (en sorts utgångsläge, som vi ofta inte ens tror på). Om vi vill jämföra två grupper med avseende på någon egenskap brukar nollhypotesen vara att det inte finns någon skillnad mellan gruppernas medelvärden; den hypotes vi vill pröva är såklart att det finns en skillnad som är skild från noll.
Sedan samlar vi in data, ett så kallat stickprov, och uppskattar medelvärdet (eller vilken parameter vi nu vill testa) och variationen i stickprovet. Baserat på variationen i stickprovet uppskattar vi hur stor sannolikheten är att det här resultatet, eller ett ännu bättre (alltså ett som talar starkare för vår hypotes), uppstår av en slump. Den sannolikheten är p-värdet. Om den sannolikheten är liten är vi rätt säkra på att resultatet inte uppsått av en slump, utan beror på en riktig skillnad. Då tror vi mer på vår hypotes än på nollhypotesen; vi säger att vi förkastar nollhypotesen.
p-värdet avspeglar alltså inte sannolikheten att vi har rätt, utan risken för att göra en viss typ av fel, alltså risken att förkasta nollhypotesen fast den är sann. Den här typen av resonemang har sina sidor. Ett problem är hur negativa resultat ska tolkas. Ifall vi inte får en signifikant skillnad, och alltså inte förkastar nollhypotesen, betyder det att nollhypotesen är sann? Inte nödvändigtvis. Det finns ofta inget bra sätt att visa en avsaknad av en skillnad.
I fallet genetisk association är nollhypotesen såklart att varje enskild SNP inte är associerad till egenskapen; den hypotes vi prövar är att det det finns en association. Var vi ska dra gränsen för ett signifikant resultat är en samvetsfråga. Hur stor risk att göra fel kan vi acceptera? En vanlig, och helt godtycklig, gräns är 1 på 20. Då förkastar vi nollhypotesen om p < 0.05.
Åter till Manhattandiagrammet. Där var gränsen alltså . Det är väldigt väldigt väldigt (väldigt, väldigt, väldigt…) mycket mindre än 0.05. Varför?
Jo, i studien ifråga tittade de på dryga 500 000 olika SNPs och 22 olika egenskaper. Det innebär att de sammanlagt prövade hypotesen om association mer än elva miljoner gånger. Med den vanliga gränsen vid 1 på 20 skulle de i så fall riskera att, totalt i hela studien, ha fel cirka 550 000 gånger (om vi antar att jämförelserna är oberoende; det är de förmodligen inte, så fullt så illa behöver det inte vara), av ren slump.
Det vore naturligtvis inte acceptabelt, och därför har de i artikeln ifråga justerat sitt tröskelvärde och gjort det mångfaldigt lägre. De har räknat som om testerna är oberoende, och då fått fram som så kallad simultan signifikansnivå, det vill säga den signifikanströskel de måste hålla för att hela studien, tagen tillsammans, ska ha p < 0.05. (Det här sättet att kontrollera den simultana signifikansnivån kallas Bonferroni-justering.)
Låt oss ta ett exempel som illustrerar vad som kan hända om vi inte håller koll på den simultana signifikansen. Det är inte bara vid helgenomsassociation som det blir massvis av statistiska tester. Funktionell magnetresonans, fMRI, är ett sätt att ta bilder av hjärnan i arbete och ta reda på vilken del av hjärnan människor eller djur använder för att göra olika saker. (Exakt vad ”hjärnan i arbete” betyder i det här fallet är inte helt självklart, men nu ska det bara handla om statistiken, inte om den biologiska grunden för fMRI.)
fMRI ger upphov till en tredimensionell bild, med tusentals punkter som motsvarar volymelement — så kallade voxlar (jämför med pixlarna på den tvådimensionella datorskärmen). Craig Bennet och hans kollegor la en död lax i en fMRI-scanner, visade foton av människor i olika stiuationer och gav den i uppgift att bedöma vilka känslor människorna på bilden upplevde. Som syns i metoderna gjorde de en rad komplicerade beräkningar, men det hela leder fram till ett statistiskt test som de utför med olika tröskelvärden för p-värdet.
Titta gärna på själva postern och den snygga bilden av det lilla röda området i laxens huvud. Ett test på nivå p < 0.001, vilket kan tyckas rätt lågt, ger ändå en liten grupp voxlar mitt i den döda laxens hjärna, där det verkar pågå någon sorts verksamhet. När de däremot använde två metoder (inte Bonferroni, utan mer sofitikerade varianter) för att hålla koll på den simultana signifikansen, så försvinner det. Sensmoralen är: håll koll på den simultana signifikansen.
Litteratur
Allan Gut, (2007) Konsten att räkna: tankar om siffror och statistik, Norstedts, är en bok om statisik som introducerar hypotesprövning på ett behagligt sätt.
Signifikans vid flerfaldiga tester brukar presenteras i samband med variansanalys i läroböcker.
Craig M Bennet et al. (2009) Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction.