Fragment av ett finkgenom: att passa och pussla dna

Häromdagen var det Charles Darwins födelsedag och ett gäng genetiker passade på att publicera en genomsekvens för Geospiza magnirostris, en av de fågelarterna på Galapagos som Darwin träffade på under sin resa med the Beagle. Nu var tjocknäbbade markfinkar kanske inte Darwins viktigaste inspiration, men fåglarna på Galapagos har blivit ett populärt exempel på lokal anpassning med sina specialiserade näbbar.

1839_Zoology_F8.11_fig067

Den som vill bläddra i Rands’ & co genomsekvens för G. magnirostris kan ladda hem en 1.09 Gb zippad fil från fighshare. Men innan vi tänker på att leka med den: vad kan vi vänta oss av en modern genomsekvens? Först och främst: sekvensen är ett utkast som alla från djur och växter. Den är totalt 991 miljoner baser lång men består av strax under 13 000 bitar. G. magnirostris har givetvis inte 13 000 kromsomer utan det är så det blir när en gör modern genomsekvensering. Att sekvensera är mycket snabbare och billigare än det mödosamma arbete som krävdes för att göra de tidiga referenssekvenerna, som människans, hönans m fl. Men det blir ett fragmenterat genom. Det flesta bitarna finns nog där någonstans, men ingen vet i vilken ordning de passar ihop.

Sekvensering kan betyda lite olika saker. När någon pratar om att ”sekvensera tusentals mänskliga genom” eller ”sekvensera området kring SLCO1B3” handlar det om omsekvensering av organismer där det finns en referenssekvens. Efter sekvenseringen, som kan täcka hela genomet eller bara en viss del gäller det att passa in de avlästa dna-bitarna och se var de passar i referenssekvensen, och på vilka ställen det finns genetiska varianter. Passningsproblemet (alignment) är lite besvärligt, särskilt med de miljontals korta sekvenser som kommer ur en modern maskin, men det pussel (assembly) som uppstår när en vill rekonstruera ett genom utan att det finns någon känd referenssekvens är sju resor värre.

Dels genererar en modern maskin väldigt mycket sekvensdata, som sagt, men det är nog inte så farligt jämfört med datamängder som folk i andra branscher hanterar. Tyvärr råkar pusselproblemet dessvärre vara omöjligt. Tänk på dna-sekvenser som upprepas mer än en gång i genomet. Om den avlästa sekvensens (femtio till några hundra baser beroende på teknik) är längre än den upprepade sekvensen är det inget problem. Men om den upprepade sekvensen är mycket längre än den avlästa, och sådana finns det gott om, finns det bitar som inte går att sätta ihop ordentligt.

Problemet kan inte avhjälpas med mer sekvensering, utan kräver att dna prepareras på särskilda sätt. I det här sammanhanget betyder ordet ”bibliotek” en samling korta dna-molekyler från genomet i fråga (antingen i vattenlösning eller inuti en population genmodifierade bakterier). All modern sekvensering använder bibliotek där dna-bitar fragmenteras och paketeras för sekvensering. För att sekvensera över stora repetitiva områden finns det mate-pair eller jump libraries, bibliotek där varje dna-bit är ihopklippt av två kortare med ett hopp i mitten. Långa hopp täcker en längre sekvens utan att behöva läsa av längre bitar och är användbart både för att täcka upprepade sekvenser och sätta ihop korta bitar av ihoppusslad sekvens. Rands & co använde tre typer av bibliotek: enkla fragmenterade sekvenser (300-400 baser långa, 454-metoden) och hopp på 2500 och 4900 baser.

Hur komplett blev det då? Det är väldigt svårt att säga hur bra en genomsekvens är men det går att jämföra litegrann med de fåglar som redan har referenssekvenser: hönan, zebrafinken och kalkonen. Det blev totalt 991 miljoner baser, vilket är ungefär i samma storlekordning som de sekvenserade delarna av andra fågelgenom, och uppskattningsvis 80-90% av genomet. Men när de istället tittade efter kända gener, sådan som både finns hos människa och zebrafink och rimligen borde finnas hos G. magnirostris, så stod ungefär 70% av dem att finna i sekvensen. Så, 70-90% komplett, beroende på om mängden sekvens är en överskattning eller om antalet gener är en underskattning.

Litteratur

Rands, C. M., Darling, A., Fujita, M., Kong, L., Webster, M. T., Clabaut, C., et al (2013). Insights into the evolution of Darwin’s finches from comparative analysis of the Geospiza magnirostris genome sequence. BMC Genomics 14 doi:10.1186/1471-2164-14-95

Nagarajan, N., & Pop, M. (2013). Sequence assembly demystified. Nature Reviews Genetics. doi:10.1038/nrg3367

En reaktion på ”Fragment av ett finkgenom: att passa och pussla dna

  1. Pingback: Gyckelblommorna i Copperopolis och deras vissnande hybrider | There is grandeur in this view of life

Kommentarer är stängda.