Referensen de glömde: 1000 mänskliga genom

Tidigare i veckan handlade det om mänskliga genomsekvenser och jag var lite tjurskallig om det första irländska genomet… Jag borde nog ha nämnt 1000 Genomes Project som är den nya sekvenseringens svar på HapMap och som kommer göra det betydligt mindre hett att publicera analyser av enskilda individers sekvenser — om det inte är något väldigt speciellt med dem…

(Bild från Wikipedia.)

Okej, sekvenseringen av Ozzy Osbournes genom har ännu inte publicerats i någon vetenskaplig tidskrift och bidrar knappast särskilt mycket till mänskligt vetande. 1000 Genomes, däremot, har det ambitiösa målet att hitta i stort sett alla genetiska varianter som förekommer med minst 1% frekvens i populationen. För att åstadkomma det kommer de sekvensera ett stort antal människor från olika delar av världen. (Det är faktiskt inte just 1000 genom som ska sekvenseras, utan mer än 2000.)

Och nu publiceras ett par artiklar baserade på data från deras pilotprojekt. I den stora artikeln i Nature kan vi läsa att de har sekvenserat 179 individer lite ytligare men tillräckligt för att hitta vanliga genetiska varianter; dessutom har de sekvenserat två trios av mor, far och barn mycket noggrannare; och slutligen hos 697 personer den relativt lilla del av genomet som kodar för proteiner. Allt som allt ger det en katalog av genetiska variationer — både SNP:ar och kopievariationer — som de uppskattar täcka 95% av den variation som finns.

I Nature-artikeln och den samtidiga Science-artikeln gör de såklart också en mängd intressanta beräkningar. Bland annat letar de efter genetiska tecken på evolution genom naturligt urval i DNA-sekvensen. Förresten, för den som trodde att det är sekvenseringen och inte analysen som är det jobbiga — titta på projektets hemsida. Den sista sekvenseringen i pilotprojektet var klar i juni 2009. Nature-artikeln mottogs av tidskriften i juli 2010.

Karin Bojs skriver en bra artikel om nyttan av fler genetiska markörer. Men varför inte kosta på sig att länka till artiklarna? Nature-artikel är open access och Science-artikeln kan läsas gratis efter registrering.

(Uppdatering: Strax efter att den här texten postats försvann DN:s artikel igen. Vi får väl se när den kommer tillbaka.)

Litteratur

A map of human genome variation from population-scale sequencing. (2010) Nature 467 ss. 1061-1073. Det blir för mycket även för Nature att skriva ut alla författarnas namn; de listas längst ner på sidan.

Sudamant et al. (2010) Diversity of Human Copy Number Variation and Multicopy Genes. Science 330 ss. 641-646. Här står ”1000 Genomes Project” som en av medförfattarna i listan — och så är det 10 till.

Referensen de glömde: Ett mänskligt genom till

Det är på modet att bestämma DNA-sekvensen för enskilda människors kromosomer.

En artikel i Nature Genetics rapporterade nyss om ännu en sådan genomsekvens, från en japansk man. I TT-notisen om artikeln (och då kanske också i Nature Genetics’ presskit?) står det att det är den sjunde individuella genomsekvensen. De verkar ha missat sekvenseringen av en irländares genom i tidigare i år. Får det inte en ganska komisk klang — det första japanska genomet, det första irländska genomet…?

Varför sekvensera individuella genom? Den mänskliga genomsekvensen, som vi känner och älskar, är en referenssekvens byggd på prover från anonyma (och några kända) donatorer. Referensgenomet ger oss en bra uppfattning om genomets övergripande form, vilka gener som finns och hur de liknar och skiljer sig från andra arter. Men det finns forfarande en värld av genetisk variation mellan människor att upptäcka.

HapMap är ett projekt som syftar till kartlägga den variationen genom att, i stora drag, hitta ett stort antal SNP:ar (ställen där ett baspar skiljer sig) — och en del CNV:er (sekvenser som uppträder i ingen eller flera kopior) — och typa dem i grupper av försökspersoner från olika delar av världen.

Men varför nöja sig med genetiska markörer när det går att få sekvenser? Med nya tekniker för DNA-sekvensering börjar det bli realistiskt att med referenssekvensen som stöd sekvensera om hela genomet från enskilda individer. Metoderna är lite olika, men de ger alla mycket korta DNA-sekvenser, några tiotal baser. (Gammal hederlig Sangersekvensering ger minst några hundra.) Istället producerar de väldigt väldigt många — inte för inte kallas de ibland ”massivt parallella”. Per bas räknat blir genomsekvenserna mycket snabbare och billigare, men det är fortfarande svindyrt — särskilt som vi måste räkna in den datorkraft som går åt.

Som Mike the Mad Biologist, en biologibloggare jag gillar, uttrycker det: ”The exciting thing about the recent technological advances in genomics is that we have a massive amount of data. The terrifying thing about the recent technological advances in genomics is that we have a massive amount of data.”

Litteratur

Fujimoto A et al. (2010) Whole-genome sequencing and comprehensive variant analysis of a Japanese individual using massively parallel sequencing. Nature Genetics. Förhandspublicerat 24 oktober.

Tong P et al. (2010) Sequencing and analysis of an Irish human genome. Genome Biology 11 R91