Sökmotorfrågor: Var på kromosom sju sitter genen för cystisk fibros?

Häromdagen var det någon läsare som hittade hit genom att ställa den frågan till en sökmotor. Så, var sitter genen för cystisk fibros? Cystisk fibros är en av de få sjukdomar där det verkligen finns en klar genetisk orsak — en gen där en del varianter (några av dess alleler, som det brukar heta) gör att proteinet inte fungerar som det ska, med en massa obehagliga konsekvenser. Alltså, alla har vi genen, men en del har råkat få dubbla kopior av en allel som orsakar sjukdomen.

OMIM (Online Mendelian Inheritance in Man) är ett bra ställe att börja för att få en uttömmande och tungrodd sammanfattning om en sådan gen. Om vi söker på cystisk fibros hittar vi CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR; CFTR. Det finns också en OMIM-post om sjukdomen i sig. Inte ens här är det riktigt så enkelt att det är en ensam gen — dels finns det flera olika besvärliga alleler av CFTR-genen, dels verkar det finnas andra gener som modifierar effekten av CFTR.

OMIM har en länk till en genetisk karta, men istället kan vi söka på CFTR-genen i en genombläddrare som Ensembl. Där hittar vi en beskrivning av genen, inklusive dess plats i referenssekvensen: på kromosom sju vid ungefär 117 megabaser.

Sökmotorfrågor: Hur påverkas den genetiska variationen av överkorsningar mellan kromosomer?

Alla som har en blogg med en bra statistikfunktion har väl skrattat åt vilka saker folk skrivit in i sökmotorer för att hitta dit; jag vet inte om det är ett bra eller dåligt betyg att de flesta sökningar hit är helt allvarliga och inte ett dugg dråpliga. De flesta som hittat till den här bloggen via en sökmotor verkar vara intresserade av Xq28. Men nyligen googlade någon på frågan: Hur påverkas den genetiska variationen av överkorsningar mellan kromosomer? Låt oss försöka svara på det. Här är Thomas Hunt Morgans bild av överkorsning igen:

Överkorsning bryter upp och klistrar ihop delar av ett kromosompar till rekombinanta kromosomer. Men den ändrar inte sekvensen på de kromosombitar som bytt plats. Den ändrar alltså inte allelerna, alltså de genetiska varianterna, utan blandar bara om dem… när det fungerar som det ska, vilket det såklart inte alltid gör. Ibland blir det en så kallad obalanserad överkorsning, där bitar från olika kromsomer sätts ihop på oväntade sätt.

Även om överkorsningar inträffar slumpvis så är de inte likafördelade över genomet; i vissa områden blir det överkorsning oftare. Kan det vara så att det oftare blir fel i de områden där det är mycket överkorsning? Det skulle ju vara ett sätt som överkorsning påverkar den genetiska variationen.

Hur kan vi då få reda på det? Om vi vill veta var mutationer förkommer tittar vi naturligtvis efter genetisk variation — företrädesvis i delar av genomet där vi väntar oss att de ska vara neutrala (alltså utanför kodande gener eller i de reglerande sekvenser som påverkar hur generna uttrycks). Några som gjort det alldeles nyligen är 1000 Genomes-projektet. En passage i deras pilotartikel i Nature handlar om genetisk variation i överkorsningsregioner (på engelska: recombination hotspots).

Men först måste vi hitta områden där överkorsningar är extra vanliga. Vad är det som utmärker sådana områden? En sak, har det visat sig, är att proteinet PRDM9 binder till DNA där. PRDM9 är ett histonmetyltransferas. Det betyder är ett att det är ett protein som sätter fast metylgrupper på histoner, de proteiner som DNA-molekylen normalt ligger upprullad kring. Sådana histonmodifikationer av histoner reglerar genuttryck — och de brukar räknas till de epigenetiska mekanismerna.

Oavsett hur PRDM9 påverkar rekombinationsfrekvensen — det tror jag inte någon riktigt vet, mer än att det är rimligt att tänka sig att det har något med histonmodifikationer i den delen av genomet att göra — så kan dess bindningsställen kännas igen på ett visst mönster i DNA-sekvensen, ett visst motiv: CCTCCCTNNCCAC (där N står för vilken bas som helst).

Så författarna letade efter PRDM9-bindande sekvernser och räknde antalet SNP:ar i närheten — och jämförde det med SNP-frekvensen kring ett annat, vagt liknande motiv, som skiljde sig på en enda bas, och alltså inte matchade PRDM9:s bidningsställe perfekt.

Det här kontrollmotivet är ungefär lika vanligt som PRDM9-motivet (typ 3500 respektive 3000 gånger i hela genomet), och det är inte kopplat till överkorsningar. Vid det riktiga PRDM9-motivet, däremot, var rekombinationsfrekvensen som väntat hög. Men nej, det verkar inte vara någon skillnad i antalet SNP:ar; överkorsningar verkar inte påverka hur genetisk variation uppstår.

Litteratur

A map of human genome variation from population-scale sequencing. (2010) Nature 467 ss. 1061-1073

För att hitta detaljerna kring metoderna, kolla inte i ”Methods” (det vore för enkelt) — de finns i en stor PDF-fil under ”Supplementary materials” längst ner på sidan.

Referensen de glömde: 1000 mänskliga genom

Tidigare i veckan handlade det om mänskliga genomsekvenser och jag var lite tjurskallig om det första irländska genomet… Jag borde nog ha nämnt 1000 Genomes Project som är den nya sekvenseringens svar på HapMap och som kommer göra det betydligt mindre hett att publicera analyser av enskilda individers sekvenser — om det inte är något väldigt speciellt med dem…

(Bild från Wikipedia.)

Okej, sekvenseringen av Ozzy Osbournes genom har ännu inte publicerats i någon vetenskaplig tidskrift och bidrar knappast särskilt mycket till mänskligt vetande. 1000 Genomes, däremot, har det ambitiösa målet att hitta i stort sett alla genetiska varianter som förekommer med minst 1% frekvens i populationen. För att åstadkomma det kommer de sekvensera ett stort antal människor från olika delar av världen. (Det är faktiskt inte just 1000 genom som ska sekvenseras, utan mer än 2000.)

Och nu publiceras ett par artiklar baserade på data från deras pilotprojekt. I den stora artikeln i Nature kan vi läsa att de har sekvenserat 179 individer lite ytligare men tillräckligt för att hitta vanliga genetiska varianter; dessutom har de sekvenserat två trios av mor, far och barn mycket noggrannare; och slutligen hos 697 personer den relativt lilla del av genomet som kodar för proteiner. Allt som allt ger det en katalog av genetiska variationer — både SNP:ar och kopievariationer — som de uppskattar täcka 95% av den variation som finns.

I Nature-artikeln och den samtidiga Science-artikeln gör de såklart också en mängd intressanta beräkningar. Bland annat letar de efter genetiska tecken på evolution genom naturligt urval i DNA-sekvensen. Förresten, för den som trodde att det är sekvenseringen och inte analysen som är det jobbiga — titta på projektets hemsida. Den sista sekvenseringen i pilotprojektet var klar i juni 2009. Nature-artikeln mottogs av tidskriften i juli 2010.

Karin Bojs skriver en bra artikel om nyttan av fler genetiska markörer. Men varför inte kosta på sig att länka till artiklarna? Nature-artikel är open access och Science-artikeln kan läsas gratis efter registrering.

(Uppdatering: Strax efter att den här texten postats försvann DN:s artikel igen. Vi får väl se när den kommer tillbaka.)

Litteratur

A map of human genome variation from population-scale sequencing. (2010) Nature 467 ss. 1061-1073. Det blir för mycket även för Nature att skriva ut alla författarnas namn; de listas längst ner på sidan.

Sudamant et al. (2010) Diversity of Human Copy Number Variation and Multicopy Genes. Science 330 ss. 641-646. Här står ”1000 Genomes Project” som en av medförfattarna i listan — och så är det 10 till.

Referensen de glömde: Ett mänskligt genom till

Det är på modet att bestämma DNA-sekvensen för enskilda människors kromosomer.

En artikel i Nature Genetics rapporterade nyss om ännu en sådan genomsekvens, från en japansk man. I TT-notisen om artikeln (och då kanske också i Nature Genetics’ presskit?) står det att det är den sjunde individuella genomsekvensen. De verkar ha missat sekvenseringen av en irländares genom i tidigare i år. Får det inte en ganska komisk klang — det första japanska genomet, det första irländska genomet…?

Varför sekvensera individuella genom? Den mänskliga genomsekvensen, som vi känner och älskar, är en referenssekvens byggd på prover från anonyma (och några kända) donatorer. Referensgenomet ger oss en bra uppfattning om genomets övergripande form, vilka gener som finns och hur de liknar och skiljer sig från andra arter. Men det finns forfarande en värld av genetisk variation mellan människor att upptäcka.

HapMap är ett projekt som syftar till kartlägga den variationen genom att, i stora drag, hitta ett stort antal SNP:ar (ställen där ett baspar skiljer sig) — och en del CNV:er (sekvenser som uppträder i ingen eller flera kopior) — och typa dem i grupper av försökspersoner från olika delar av världen.

Men varför nöja sig med genetiska markörer när det går att få sekvenser? Med nya tekniker för DNA-sekvensering börjar det bli realistiskt att med referenssekvensen som stöd sekvensera om hela genomet från enskilda individer. Metoderna är lite olika, men de ger alla mycket korta DNA-sekvenser, några tiotal baser. (Gammal hederlig Sangersekvensering ger minst några hundra.) Istället producerar de väldigt väldigt många — inte för inte kallas de ibland ”massivt parallella”. Per bas räknat blir genomsekvenserna mycket snabbare och billigare, men det är fortfarande svindyrt — särskilt som vi måste räkna in den datorkraft som går åt.

Som Mike the Mad Biologist, en biologibloggare jag gillar, uttrycker det: ”The exciting thing about the recent technological advances in genomics is that we have a massive amount of data. The terrifying thing about the recent technological advances in genomics is that we have a massive amount of data.”

Litteratur

Fujimoto A et al. (2010) Whole-genome sequencing and comprehensive variant analysis of a Japanese individual using massively parallel sequencing. Nature Genetics. Förhandspublicerat 24 oktober.

Tong P et al. (2010) Sequencing and analysis of an Irish human genome. Genome Biology 11 R91

ADHD och kopietal: postskriptum

Det är en sak till jag tycker vi borde ta upp om kopplingen mellan ADHD och kopietalsvariationer. Det är en fråga som olika människor nosat på i kommentarer kring gårdagens nyhetsartiklar.

Det börjar med en viktig invändning: Att två saker korrelerar betyder inte att den ena orsakar den andra. Det är en bra sak att påminna sig om då och då, och en bra mycket bra fråga att ställa när någon fysiologisk process kopplas till beteende. Så varför inte ställa den om generna också: Varför tolkar både vi och forskarna de här resultaten som att genetiska variationer är en del av orsaken till ADHD — istället för att tänka sig att ADHD kanske orsakar genförändringar?

Ett svar kan vara att genetiska mutationer, för allt vi vet, brukar inträffa slumpvis. Ju längre vi lever, desto fler blir mutationerna, och celler här och där får olika förändringar i sin arvsmassa. En del börjar bete sig lite konstigt, men de flesta dör och ersätts efterhand. Kroppen har mycket god koll på att celler kopierar sitt DNA ordentligt och bara delar sig när de ska.

Därför är det extremt osannolikt att de genetiska variationer som krävs för att orsaka ökad risk för en fenotyp som ADHD skulle uppstå i en hel människas kropp. Det enda säkra sättet att få en viss genetisk variation i någon större del av kroppen är att ärva den. De varianter som pekades ut i ADHD-artikeln har med allra största sannolikhet uppstått vid den speciella celldelning som kallas meios, som ger upphov till könscellerna. En mutation som uppstår där kan gå i arv till nästa generation, finnas i hela barnets kropp och sedan gå i arv till barnbarnen.

(Det finns ett otäckt undantag till den här regeln — en genuint genetisk sjukdom som oftast inte går i arv, utan uppstår spontant under livets gång — och det är cancer. Men cancercellerna fuskar; de mutationer de drabbats av gör att de börjar växa med en brutal kraft, undkommer kroppens reglerande system och växer ifrån sina grannceller, som inte delar sig så mycket. Men det är en annan historia.)

Det här betyder alltså inte att olika miljöfaktorer inte kan vara inblandade i ADHD; sådana finns alldeles säkert. Men vi kan vara rätt säkra på att ADHD inte orsakar själva de genetiska varianterna. De kommer sig nog istället av att vissa människor av ren slump råkat ut för mutationer i gener som på något sätt har med beteende att göra.

Referensen de glömde: ADHD och kopietal

Som vi lite surt konstaterade tidigare är det rätt sällan vetenskapsjournalister bemödar sig med att tala om vilken artikel det är de refererar, vilket gör det svårt att kolla upp kontroversiella påståenden.

Här är ett par tidningsartiklar om ett sådant ämne, nämligen ADHD. De har fått karaktäristiska provocerande rubriker. Kommentarsfältet är i uppror och ett tjugotal bloggare ekar tidningens slutsatser med hoppfulla eller upprörda utrop. Det kan finnas anledning att ta en titt själv.

Men först måste vi hitta artikeln. Det är inte det lättaste. Men journalisten har givit oss lite hjälp genom att skriva ut en av forskarnas namn — Anita Thapar och tidskriften, The Lancet. Tack!

En sökning i PubMed ger vid handen att ”Thapar A” publicerat tre artiklar om ADHD i år, samt ett par om depression och födselvikt. En av dem skulle kunna vara artikeln, en helgenomsstudie. Men den är publicerad i Journal of the American Academy of Child and Adolescent Psychiatry, inte The Lancet, och är inte riktigt så ny. Och här är det såklart lite feltänkt av mig; en artikel som publicerats idag har nog inte hunnit snappas upp av PubMed eller Google Scholar.

Så, om vi tittar på The Lancets hemsida och söker på ”Thapar”, så finner vi istället den förhandspublicerade artikeln: Rare chromosomal deletions and duplications in attention-deficit hyperactivity disorder: a genome-wide analysis.

Bingo! För att bilda oss en bättre uppfattning kan vi läsa artikelns sammanfattning. Den är tillgänglig även för folk utan prenumeration.

Men en sak till: de provocerande rubrikerna: ”Forskare: adhd har genetiska orsaker” — ”ADHD kan bero på ‘trasiga’ gener”. Även om det är sant, så måste vi komma ihåg följande: Det betyder inte att ADHD endast har genetiska orsaker; det kan vi inte vara säkra på. Det betyder inte heller att ADHD inte skulle gå att behandla; det följer inte heller av en genetisk komponent. Det betyder heller inte motsatsen, alltså att den genetiska grunden med nödvändighet leder till en ny effektiv behandling; tyvärr hjälper det ofta inte särskilt mycket. (Somliga kommentarer och bloggare verkar föreställa sig en direkt koppling mellan genetiska upptäckter och tillverkning av nya mediciner. Någon sådan finns inte.)

Det betyder heller inte att människor med ADHD på något sätt är defekta; vissa gener och proteiner saknas eller beter sig annorlunda i jämförelse med folk i allmänhet — och kan på så sätt med visst fog kallas trasiga varianter. Hur ändrar det vår bild av människor med ADHD att det finns en genetisk komponent? Svaret på den frågan borde vara inte alls. Om den genetiska komponenten spelar tillräckligt stor roll kan det såklart påverka hur vi ser på varför människor har ADHD.

Att det kan finnas en viss genetisk komponent borde heller inte vara någon nyhet. Författarna hade knappast påbörjat arbetet om det inte fanns anledning att tro på en genetisk komponent — det hade varit slöseri med tid och pengar. I bakgrunden finns forskning som redan tyder på att ADHD är ärftligt, annan forskning som kopplar CNV:er (Copy Number Variations; på svenska kanske kopietalsvariationer — det är den typ av genetiska varianter som de sökt efter, helt enkelt bitar av en kromosom som förekommer olika många gånger) till autism och schizofreni och — till och med — ett annat arbete som publicerades i somras som kopplar CNV:er till ADHD.

Låt oss alltså ta det lite lugnt.

Länkningskartläggning, kromosomer som korsas och The Gay Gene

Finns det en gen för homosexualitet? Svaret på den frågan, förstådd i strikt bemärkelse, är såklart nej. Det kan inte vara en enda gen som entydigt bestämmer ett komplicerat beteende som sexuell läggning. Därmed kunde den här texten vara slut, om det vore ett enkelt svar vi var ute efter.

Men det är intressantare att fråga sig ifall det medges komplicerade och kulturellt influerade beteende vi kallar sexuell läggning har någon genetisk komponent — och hur dessa gener i så fall fungerar. (På A svarar vi ”ja, förmodligen” och på B ”vet inte”.) Vi ska inte ge oss på att försöka besvara de frågorna här, utan istället ägna oss åt den mest kända kandidaten till en sådan gen och vad som hände med den. Jag har nämnt den tidigare, som exempel på en kandidatregion som inte gått att bekräfta. Eftersom den också, ironiskt nog, kanske är det mest  kända exempelet på genetisk kartläggning av mänskligt beteende förtjänar den att beskrivas mer i detalj. Fortsätt läsa

Något om flerfaldiga jämförelser och att prata känslor med en död lax

Som Gunnar påpekade borde vi behandla flerfaldiga statistiska jämförelser — i all enkelhet, som statistiska amatörer. Låt oss titta på Manhattandiagrammet från förra posten igen:

(Eriksson et al. 2010)

På x-axeln kommer alltså SNP:arna i den ordning de förekommer i genomet, kromosom för kromosom. Y-axeln skrev jag visade p-värde, men det är inte riktigt sant. Skalan är logaritmisk och den visar egentligen den negativa tiologaritmen av p-värdet, alltså hur många gånger man måste dela ett med tio för att få p-värdet i fråga.

Gränsen där punkterna börjar bli röda, och SNP:arna betraktas som signifikant associerade med egenskapen (i det här fallet fräknar) infaller ungefär när -log10(p-värde) är 8 (närmare bestämt 8,4). Det innebär ett mycket litet p-värde, närmare bestämt .

Det är hög tid att fundera på vad det här p-värdet är. Inom statistisk hypotesprövning (vilket är ett sätt att resonera statistiskt; det finns andra) ställer vi alltid en hypotes (den vi vill pröva) mot en nollhypotes (en sorts utgångsläge, som vi ofta inte ens tror på). Om vi vill jämföra två grupper med avseende på någon egenskap brukar nollhypotesen vara att det inte finns någon skillnad mellan gruppernas medelvärden; den hypotes vi vill pröva är såklart att det finns en skillnad som är skild från noll.

Sedan samlar vi in data, ett så kallat stickprov, och uppskattar medelvärdet (eller vilken parameter vi nu vill testa) och variationen i stickprovet. Baserat på variationen i stickprovet uppskattar vi hur stor sannolikheten är att det här resultatet, eller ett ännu bättre (alltså ett som talar starkare för vår hypotes), uppstår av en slump. Den sannolikheten är p-värdet. Om den sannolikheten är liten är vi rätt säkra på att resultatet inte uppsått av en slump, utan beror på en riktig skillnad. Då tror vi mer på vår hypotes än på nollhypotesen; vi säger att vi förkastar nollhypotesen.

p-värdet avspeglar alltså inte sannolikheten att vi har rätt, utan risken för att göra en viss typ av fel, alltså risken att förkasta nollhypotesen fast den är sann. Den här typen av resonemang har sina sidor. Ett problem är hur negativa resultat ska tolkas. Ifall vi inte får en signifikant skillnad, och alltså inte förkastar nollhypotesen, betyder det att nollhypotesen är sann? Inte nödvändigtvis. Det finns ofta inget bra sätt att visa en avsaknad av en skillnad.

I fallet genetisk association är nollhypotesen såklart att varje enskild SNP inte är associerad till egenskapen; den hypotes vi prövar är att det det finns en association. Var vi ska dra gränsen för ett signifikant resultat är en samvetsfråga. Hur stor risk att göra fel kan vi acceptera? En vanlig, och helt godtycklig, gräns är 1 på 20. Då förkastar vi nollhypotesen om p < 0.05.

Åter till Manhattandiagrammet. Där var gränsen alltså . Det är väldigt väldigt väldigt (väldigt, väldigt, väldigt…) mycket mindre än 0.05. Varför?

Jo, i studien ifråga tittade de på dryga 500 000 olika SNPs och 22 olika egenskaper. Det innebär att de sammanlagt prövade hypotesen om association mer än elva miljoner gånger. Med den vanliga gränsen vid 1 på 20 skulle de i så fall riskera att, totalt i hela studien, ha fel cirka 550 000 gånger (om vi antar att jämförelserna är oberoende; det är de förmodligen inte, så fullt så illa behöver det inte vara), av ren slump.

Det vore naturligtvis inte acceptabelt, och därför har de i artikeln ifråga justerat sitt tröskelvärde och gjort det mångfaldigt lägre. De har räknat som om testerna är oberoende, och då fått fram  som så kallad simultan signifikansnivå, det vill säga den signifikanströskel de måste hålla för att hela studien, tagen tillsammans, ska ha p < 0.05. (Det här sättet att kontrollera den simultana signifikansnivån kallas Bonferroni-justering.)

Låt oss ta ett exempel som illustrerar vad som kan hända om vi inte håller koll på den simultana signifikansen. Det är inte bara vid helgenomsassociation som det blir massvis av statistiska tester. Funktionell magnetresonans, fMRI, är ett sätt att ta bilder av hjärnan i arbete och ta reda på vilken del av hjärnan människor eller djur använder för att göra olika saker. (Exakt vad ”hjärnan i arbete” betyder i det här fallet är inte helt självklart, men nu ska det bara handla om statistiken, inte om den biologiska grunden för fMRI.)

fMRI ger upphov till en tredimensionell bild, med tusentals punkter som motsvarar volymelement — så kallade voxlar (jämför med pixlarna på den tvådimensionella datorskärmen). Craig Bennet och hans kollegor la en död lax i en fMRI-scanner, visade foton av människor i olika stiuationer och gav den i uppgift att bedöma vilka känslor människorna på bilden upplevde. Som syns i metoderna gjorde de en rad komplicerade beräkningar, men det hela leder fram till ett statistiskt test som de utför med olika tröskelvärden för p-värdet.

Titta gärna på själva postern och den snygga bilden av det lilla röda området i laxens huvud. Ett test på nivå p < 0.001, vilket kan tyckas rätt lågt, ger ändå en liten grupp voxlar mitt i den döda laxens hjärna, där det verkar pågå någon sorts verksamhet. När de däremot använde två metoder (inte Bonferroni, utan mer sofitikerade varianter) för att hålla koll på den simultana signifikansen, så försvinner det. Sensmoralen är: håll koll på den simultana signifikansen.

Litteratur

Allan Gut, (2007) Konsten att räkna: tankar om siffror och statistik, Norstedts, är en bok om statisik som introducerar hypotesprövning på ett behagligt sätt.

Signifikans vid flerfaldiga tester brukar presenteras i samband med variansanalys i läroböcker.

Craig M Bennet et al. (2009) Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction.

En gen för fräknar, en gen för lockar, en gen för lukten av sparris

Det finns en rad företag som erbjuder genetiska analyser till privatpersoner. För några tusen får du spotta i ett rör, och företaget typar ett antal genetiska markörer, alltså kända platser i genomet som varierar mellan människor. Den informationen, alltså vilka varianter en individ bär på, kan ge lite olika upplysningar. Men det är inte så många genetiska varianter där vi faktiskt vet hur de ska tolkas.

En del information är mest för nöjes skull — saker vi förmodligen redan har märkt eller som vi inte har någon direkt nytta av. De flesta vet vilken ögonfärg de har även utan gentest, till exempel.

Några har kliniskt värde i och med att de speglar variationer i leverns enzymsystem och indikerar förmågan att bryta ner olika läkemedel. CYP2D6, till exempel, är en mycket känd sådan, som då och då typas i vården. Farmakogenetik, kallas den genetik som handlar om variationer i vårt svar på läkemedel, och det är kanske den form av personlig genetik som har störst potential att leverera inom överskådlig tid. Gentester till konsumenter i all ära, men än så länge är de mest en form av dyra leksaker.

Några, slutligen, avspeglar risk för olika sjukdomar. Här är det viktigt att veta, att de flesta sjukdomarna ifråga har en komplex genetisk bakgrund som interagerar med miljöfaktorer. Alltså, det vi hittar är inte en gen som orsakar sjukdomen, utan ett antal genetiska markörer som har ett samband med sjukdomsrisk. (En genetisk markör är en känd variation någonstans i genomet som går att typa; att en markör har ett samband med sjukdomsrisk betyder sannolikt att den ligger i närheten någon variation som orsakar den ökade risken.)

Det mest kända företaget i gentestningbranschen, 23andMe, har varit på tapeten ett par gånger den sista tiden. Den första anledningen var inte så smickrande. Nyligen visade det sig att 23andMe givit felaktiga uppgifter till ett antal kunder för att någon satt ner en platta med prover åt fel håll i en maskin…

Den andra anledningen är desto roligare: nyligen publicerade forskare från 23andMe sin första granskade vetenskapliga artikel: Web-Based, Participant-Driven Studies Yield Novel Genetic Associations for Common Traits publicerades den 24 juni, knappt ett år efter att den skickades in i PLoS Genetics. PLoS, Public Library of Science, publicerar en serie tidskrifter vars innehåll är Creative Commons-licensierat, och alltså kan läsas och spridas vidare av vem som helst (till skillnad från de flesta vetenskapliga tidskrifter, som bara är tillgängliga från universitetsbibliotek och andra instutitioner som betalar multum för prenumerationer).

Det är en artikel som handlar om den första typen av egenskaper ovan: ett antal egenskaper som inte är så medicinskt intressanta, men desto vanligare. Det finns definitivt ett vetenskapligt intresse i att beskriva hur genetiska variationer bidrar till den normala mänskliga variationen i till exempel utseende.

Arbetet är också särskilt intressant på grund av hur datainsamligen gått till. Försökspersonerna är nämligen de av 23andMes kunder som gått med på att att delta med sina data i vetenskapliga försök. De har själva samlat in proverna, genom att skicka sin saliv i ett rör med posten, och information om fenotyper, genom att besvara enkätfrågor på 23andMes hemsida, där de också hämtar sina data. 23andMe har alltså lyckats få försökspersoner att betala för privilegiet att delta i studien!

Den typ genetisk markör som 23andMe jobbar med kallas single nucleotide polymorphism (SNP). Det är ställen där, en enda position i genomet, en bas, skiljer sig mellan individer. Ett A, adenosin, kan till exempel vara utbytt mot cytosin, C. SNP:ar har den goda egenskapen att det finns massor av dem, så det går att typa markörer relativt tätt utspridda över hela genomet och på så sätt beskriva en individs genom i detalj. Genom att kombinera många individers genotypdata med information om dem, går det att statistiskt koppla samman genotyp med fenotyp — alltså att undersöka vilka genetiska varianter som hänger ihop med en viss egenskap. Detta kallas genome wide association (GWAS), kanske på svenska kanske helgenomsassociation. Det är vad 23andMe har gjort.

De har frågat sina kunder vilken hårfärg och ögonfärg de har, ifall de är fräkniga, är morgonmänniskor, har visdomständer, är vänster- eller högerhänta, har glasögon, har tandställning, gillar sötsaker, blir åksjuka och så vidare. Sedan har de formulerat resultaten som 22 antingen-eller: fräknar ja/nej, ögonfärg brun/blå, hårfärg blond/brun, rött hår ja/nej, och så vidare. 22 gånger har de alltså delat upp deltagarna i två grupper: en fall-grupp (”case”) där deltagarna har egenskapen i fråga, och en kontrollgrupp som inte har den. Och så jämförde de, för varje SNP, vilken variant folk har i fallgruppen och vilka de har i kontrollgruppen.

För åtta fenotyper hittade de SNP:ar som statistiskt skiljer sig mellan grupperna, och alltså är associerade med egenskapen — rött hår, fräknar, blont eller brunt hår, bruna eller blå ögon, gröna eller blå ögon, lockigt hår, samt två små konstigheter: tendensen att nysa i vid starkt ljus och förmågan att känna lukten av sparrismetaboliter i urin.

Här ser vi ett så kallat Manhattandiagram för fräknar. Varje punkt är en SNP, och på y-axeln finns p-värdet, som är ett statistiskt mått på hur stor tilltro vi sätter till associationern. Röda punkter är signifikant associerade SNP:ar, alltså de som har p-värden högre än ett visst tröskelvärde.

(Bild från artikeln; Eriksson et al. 2010)

Vi lägger märke till att de röda SNP:arna kommer i grupper som bildar små torn i diagrammet. Det är SNP:ar som ligger nära varandra och alltså alla är associerade med egenskapen och den eventuella närliggande underliggande varianten. De associerade SNP:arna leder sedan fram till kandidatgener, alltså troliga misstänkta gener i närheten av markören. Observera uttrycken ”kandidat” och ”misstänkta”… Det är inte alls självklart att genetiska kartläggningar träffar rätt. Kandidatgenerna behöver studeras närmare för att ta reda på vilka varianter det finns i dem, vad de faktiskt gör och hur det går till. Det är förstås också bra ifall resultatet kan upprepas i andra studier. (”The Gay Gene”, en kandidatregion för homosexualitet, är ett känt exempel på en association som inte gått att upprepa — ryktet om den verkar dock ändå inte vilja ta slut.)

Diagrammet ovan gäller fräknar, och här syns tre röda berg — tre regioner där det finns kandidatgener. Två av dem är upprepningar av tidigare associationer och den tredje är ny — det är en SNP som ligger inuti genen BNC2, som därmed är en ny kandidatgen för fräknar. Den liknar BNC1, en bättre känd gen vars proteinprodukt är viktig för hudceller. Det finns alltså en viss logik i att den kunde ha med fräknar att göra. Men som sagt, det återstår att se.

Litteratur

Eriksson N, Macpherson JM, Tung JY, Hon LS, Naughton B, et al. (2010) Web-Based, Participant-Driven Studies Yield Novel Genetic Associations for Common Traits. PLoS Genet 6 e1000993. doi:10.1371/journal.pgen.1000993