Hjärtliga gratulationer

Charles Darwin (12 februari 1809 – 19 april 1882)

Födelsedagen firas med följande väl tajmade artikel i BMC Genomics: Rands m fl. (många fler) Insights into the evolution of Darwin’s finches from comparative analysis of the Geospiza magnirostris genome sequence. Dessutom: historien bakom artikeln från en av författarna, Jonathan Eisen. Artikeln handlar om sekvenseringen av en av arterna och jämförelser med andra fågelgenom. Det kanske blir mer om den en annan dag, men tills dess:

1839_Zoology_F8.11_fig067

(Plate XXXVI, Geospiza magnirostris, The zoology of the voyage of H.M.S. Beagle)

Using R: writing a table with odd lines (GFF track headers)

The other day, I wanted to add track lines to a GFF file, so that I could view different features as separate custom tracks in a genome browser. The need to shuffle genome coordinates between different file formats seems to occur all the time when you deal with some kind of bioinformatic data. It’s usually just text files; one just has to keep track of whether the positions should start on 0 or 1 and whether the end should include the last base or not . . .

> head(gff)

  seqname         source        feature     start       end score strand
1       5 protein_coding           mRNA 169010747 169031776     .      +
2       5 protein_coding        protein 169015421 169021641     .      +
3       5 protein_coding five_prime_UTR 169010747 169010893     .      +
4       5 protein_coding five_prime_UTR 169015398 169015420     .      +
5       5 protein_coding            CDS 169015421 169015579     .      +
6       5 protein_coding            CDS 169018052 169018228     .      +
  frame                                                     group
1     . ID=ENST00000504258;Name=CCDC99-005;Parent=ENSG00000040275
2     . ID=ENSP00000421249;Name=CCDC99-005;Parent=ENST00000504258
3     .                                    Parent=ENST00000504258
4     .                                    Parent=ENST00000504258
5     0                    Name=CDS:CCDC99;Parent=ENST00000504258
6     0                    Name=CDS:CCDC99;Parent=ENST00000504258

The above example consists of a few lines from the Ensembl human database, not the actual tracks I was interested in. Anyway, this is what I did: instead of using write.table() directly, explicitly open a file for writing, first write some track line, then write the relevant subset, and repeat.

tracks <- unique(gff$feature)
connection <- file("separate_tracks.gff", "w")
for (k in 1:length(tracks)) {
  writeLines(paste("track name=", tracks[k], sep=""), connection)
  write.table(subset(gff, feature==tracks[k]),
              sep="\t", row.names=F, col.names=F,
              quote=F, file=connection)
}
close(connection)

Tre rekommendationer

I brist på egna poster (ännu ett semesterprojekt som inte riktigt blev av) tänkte jag ge några förslag för den som vill fylla vetenskapsnördkvoten:

Sund skepsis gör ungefär vad jag brukar göra med nyhetsartiklar om biologi — men oftare, mer systematiskt och koncentrerat på medicin — det vill säga tittar närmare på olika notiser om vetenskap och spårar deras källor. Det är trevligt och mycket bekvämare än att själv söka upp referenser (även om författaren håller sig med ett betygssystem som jag inte riktigt förstår vitsen med).

The Biofashion Blog skrivs av två linköpingsstudenter, varav jag haft nöjet att undervisa en i genuttrycksanalys förra terminen. Det rör sig om precis vad det låter som — en blogg om mode och bioteknik. (Såhär cool kan du bli om du läser något av biologiprogrammen vid LiU — lägg märke till att det står ”DNA-extraktion från kiwi” på tavlan; det var en labbdemonstration som Malin och Kristina körde för besökande högstadieelever.)

Abbie Smith (a.k.a. erv, min favoritvirusbloggare!) presenterar immunförsvaret och virus för lekmän med intresse för evolution — skojigt, och påminner mig om att en verkligen borde kolla upp det adaptiva immunförsvaret … (Missa inte när hon liknar B-celler vid maffiachefer och klädsnobbar.)

Från Uppsala

Det här är ingen bloggpost med någon större substans, utan bara ett glatt utrop från Uppsala, där jag är på en workshop om QTL-kartläggning (genetisk kartläggning av kvantitativa egenskaper — alltså sådana fenotyper som kan mätas på någon mer sofistikerad skala än på/av) på EBC. Första dagen har bestått av fantastiska föreläsningar, särskilt John Willis om gyckelblomman (Mimulus guttatus) och dess genetik, och Erik Postma om inavel och deras sjukt imponerande arbete med sångsparvarna (Melospiza melodia) på Mandarte Island. (Middagsdiskussion om genetisk annotation och genuttryckskartläggning inte att förglömma.)

Imorgon ser vi fram emot mer QTL, RNA-mätningar och massivt parallell DNA-sekvensering!

En sjungen introduktion till maternella effekter

(Eller moderseffekter, som jag nog hellre skulle säga — det är hur som helst förmodligen den vanligaste och viktigaste formen av icke-genetiskt biologiskt arv. Nu finns det, åtminstone bland oss däggdjur, tydligen faderseffekter också, bland annat i form av genetisk prägling. Men modern har fortfarande betydligt fler möjligheter att överföra saker till det växande embryot.)

Just like two strands of DNA are spirally entwined, your nature and your nurture inspiringly combined…

Är det inte generna så är det hormonerna

Bara en kort grej apropå sista tidens vetenskapsnyheter:

Det är lätt att få föreställa sig att biologer som studerar beteende bara är intresserade av genvarianter och kemikaliehalter och inte bryr sig om saker som uppväxt, inlärning och interaktioner med andra individer. Men det är helt enkelt inte sant.

Faktum är att både det sociala och inlärning är beteendebiologins favoritämnen. Den klassiska etologins stjärnor som Niko Tinbergen och Konrad Lorenz sysslade just med sånt, till exempel. Tinbergen observerade steklar på väg hem till sina bon i sanden och ägnade sig åt att flytta runt pinnar, kottar och stenar för att se vilka drag i omgivningen som steklarna la på minnet för att hitta hem. Lorenz levde med kajor och gäss, lyssnade till deras läten, lärde känna deras personligheter och försökte begripa deras sociala liv. Djurs personlighet är för övrigt fortfarande i allra högsta grad på modet.

Edward Wilson, som myntade ordet sociobiologi på 70-talet — och som ironiskt nog verkar vara känd antingen som en älskvärd naturvän eller som en ämnesimperialistisk buffel — ägnade sig mest åt insektssamhällen. (Att människor, hur mycket vi än försöker, sannolikt inte kan fungera i ett samhälle som är organiserat som ett insektssamhälle är utan tvivel essentialistiskt sagt, men det är nog också sant.)

Vi må vara dualister eller materialister, tro att medvetande är något skilt från kroppen, är identiskt med processer i kroppen eller en bieffekt av sådana processer, men jag tror att vi alla måste vara överens om att det finns en koppling mellan hur nervsystemet fungerar, hur vi beter oss och hur vi känner oss. Beteendebiologens jobb är att försöka reda ut hur det där hänger ihop, på valfritt plan, men helst flera. (Det överlappar såklart andra vetenskapsfält — inte för inte är det ofta psykologer, etologer och evolutionsbiologer gått varandras vetenskapliga ärenden.)

Därför måste vi bli förvånande över hur ofta nyheten — som på sista tiden om oxytocin, bland annat — om att något beteende eller någon känsla hänger ihop med en ökande eller minskande utsöndring av något visst hormon, en elektrisk potential i något nervknippe eller ökat blodflöde i en viss del av hjärnan möts med överraskning. Vad sjutton skulle vi annars vänta oss — är inte det centrala nervsystemet beteendeorganet nummer ett? Det vore väl mer förvånande om det inte hände någonting i hjärnan eller med hormonerna när människor blev kära, ledsna eller fastnade i en bilkö?

Det kan tänkas att det finns beteenden som verkligen orsakas av genvarianter: alltså, i en viss given situation kan det vara en genetisk variant i någon gen som avgör om individen kommer göra si eller så. Hormonsystemet, däremot, är ett signalsystem — att säga att testosteron orsakar ett visst beteende eller någon annan fysiologisk reaktion, som vi ju ibland säger är inte någon vidare förklaring. (Om det inte är någon som smugit sig upp och givit individen ifråga en testosteroninjektion.) Varför utsöndrades det testosteron?

Precis som aktivering i en del av nervsystemet, en förändring i genuttryck eller någon annan fysiologisk förändring så är den ingen vidare förklaring i sig själv. Den uppstår alltid som en effekt av något annat — något i den inre eller yttre miljön.

Det går inte att göra allt på en gång. Ibland försöker vi hålla generna konstanta och studerar inavlade laboratoriestammar eller cellinjer. Ibland gör vi vårt bästa för att kontrollera miljön, tittar på skillnad i gener och kanske deras interaktion med någon enskild miljöfaktor. Men målet är inte att avskriva miljön, utan beskriva så bra det bara går hur saker händer — hur organismen reagerar i ögonblicket; hur den utvecklas under sin livstid för att kunna fungera så; och hur beteendet ifråga vuxit fram med evolutionen.

Konsten att känna igen trams, del 2: Det här är inte ett okej sätt att rita ett diagram

Det är oerhört tråkigt att skriva om fusk, förfalskningar och trams; det var meningen att den här bloggen skulle handla om cool biologi. Men, så kom det några diagram. Vad de påstås visa är att incidensen av vanliga vaccinerbara barnsjukdomar sjönk innan vaccinerna infördes. Några bloggare som inte gillar vaccinationer har tagit upp dem i samband med Wakefield-affären. (Kanske för att trösta sig?) Här är diagrammet för mässling. Tyvärr är det konstruerat på ett mycket osnyggt sätt.

(Ritat av Raymond Obomsawin och cirkulerar på nätet under titeln ”Proof That Vaccines Didn’t Save Us”)

Rättare sagt, jag såg det här diagrammet i mars i förra året på medicinbloggen Respectful Insolence. Och jag tänkte ungefär som Orac — kurvan är alldeles för slät och fin! Trots att den täcker åren 1935-1983 ändras lutningen bara tre gånger! Det ser ut att vara en mätpunkt vart tolfte år med linjer emellan. Det finns väl ingen bra anledning att anta att antalet mässlingsfall mellan 1959 och 1971 följer ett linjärt samband? Och borde det inte finnas data från varje år, inte vart tolfte?

Följer vi länken längst ner i diagrammet kommer vi till till Public Health Agency of Canadas hemsida, och där finns ett mer komplett diagram:

Jag förstår som sagt inte riktigt grejen med att rita in linjer mellan punkterna i en tidsserie. Men ändå, det här diagrammet är betydligt taggigare. Som vi kan vänta oss går antalet mässlingsfall upp och ner från år till år (närmare bestämt i cykler med en ökning vart annat till vart tredje år) — antalet fall är absolut inte strängt minskande, som det första diagrammet.

Vi ser också att under tio år, 1959-1968, var inte mässling en rapporteringspliktig sjukdom i Canada. Därför finns inga punkter där. Det var också då, 1963-1964 som mässlingsvacciner infördes.

Här är linjerna rätt missvisande; det ser ju ut som att mässlingsfallen störtdök precis 1959… Vilket bara beror på att det saknas ett värde för 1959 — och vart ska linjen mellan punkterna dras då om inte ner mot noll…? Gammalt visdomsord: om du ska till att ersätta saknade data med nollor, tänk efter en gång till, för resultatet är ren fiktion. (Tack och lov finns det en artikel med ett bättre diagram där det här framgår tydligt.)

I det första diagrammet har Obomsawin hoppat över det faktum att tio år, alltså större delen av ett av hans tolvårshopp, helt fattas; och valt ut årtal som ger intrycket av ett snyggt, slätt, strängt minskande samband. Vi kan fråga oss, om man nu ändå ska hitta på fritt, vad är det för vits med att ge en länk till den riktiga källan?

Litteratur

King A, Varughese P, De Serres G, Tipples GA, Waters J, Working Group on Measles Elimination. (2004) Measles elimination in Canada. Journal of Infectious Diseases 189

Referensen: fusket om MPR-vaccinet

Det händer då och då att en artikel som publicerats i en vetenskaplig tidskrift dras tillbaka. Bloggen Retraction Watch, som jag följer, försöker hålla reda på vilka artiklar som dras tillbaka och varför. Det visar sig att det kan bero på rätt olika saker. Ibland är det pinsamma misstag från tidskriftens sida — som att råka trycka samma artikel två gånger. Ibland är det pinsamma (men ärliga) misstag från författarnas sida — några författare som studerat fel möss (!), alltså råkat köpa in möss som saknade en gen till förutom den de var ville ha utslagen. (”Det är slarvigt men mänskligt”, som Dan Andersson skulle sagt.) Flera artiklar om stamceller har dragits tillbaka sedan vissa cellinjer visat sig vara kontaminerade med andra celler som inte borde vara där. Bara att ett resultat i efterhand visar sig troligen vara fel är inte i sig nog för att dra tillbaka en artikel.

I värre fall har författarna eller någon av författarna gjort något medvetet fel. Ofta är det fråga om plagiat, ibland till och med om manipulerade eller förfalskade data. Men rena förfalskningar är tack och lov ovanliga.

Det finns ett riktigt extremt fall där nästan allt är fel — där minst en av författarna medvetet förvrängt data, haft konflikterande ekonomiska motiv som de inte meddelat, uppträtt oetiskt mot sina försökspersoner och dessutom lyckats sprida helt omotiverad oro, som fått föräldrar att låta bli att vaccera sina barn mot barnsjukdomar. Fallet gäller naturligtvis Wakefield & co, Ileal-lymphoid-nodular hyperplasia, non-specific colitis, and pervasive developmental disorder in children som trycktes i medicintidskriften The Lancet 1998, och numera föregås av ett versalt ”RETRACTED” i titeln. Den drogs tillbaka redan i februari förra året. Andrew Wakefield, försteförfattaren och en av de tre som fortfarande står fast vid artikeln, förlorade sin läkarlegitimation i Storbritannien för att han agerat oetiskt mot de deltagande barnen genom att utsätta dem för medicinskt omotiverade ingrepp.

Vad artikeln påstods visa — med sina tolv patienter — var att trippelvaccinet mot mässling, påssjuka och röda hund (MPR) på något sätt skulle kunna kopplas till autism och inflammation i tarmen. Nåväl, även om det inte vore något fel på studien, så skulle det inte väga särskilt tungt, eftersom resultatet inte låtit upprepa sig. Hittils finns det inget annat som stöder dem, tvärtom.

Frilansjournalisten Brian Deer har undersökt fallet, först för Sunday Times. Nu har British Medical Journal publicerat ett reportage om hur det gick till och hur patienternas diagnoser justerades för att passa in. Deers artikel är, liksom BMJ-redaktörerna ledare, fritt tillgänglig. Nyheten har även nått svenska tidningar.

Å ena sidan verkar tidningar och teve älska stora rubriker om det som kan vara farligt (förra årets influensa, någon?). Å andra sidan är det undersökande journalistik som uppdagat hur det låg till. Precis som inom vetenskapen finns väl en absolut majoritet som gör sitt  jobb och de  få som fuskar sig fram. Men jag undrar hur en Retraction Watch för kvällstidningar skulle kunna se ut.

Litteratur

Deer B(2011) How the case against the MMR vaccine was fixed. BMJ 342 doi: 10.1136/bmj.c5347

Godlee F, Smith J, Marcovitch H (2011) Wakefield’s article linking MMR vaccine and autism was fraudulent. BMJ 342 doi: 10.1136/bmj.c7452

Wakefield AJ et al. (1998) RETRACTED: Ileal-lymphoid-nodular hyperplasia, non-specific colitis, and pervasive developmental disorder in children. Lancet 351 ss. 637-641

Alla måste leka med Google Ngrams

Ett n-gram är en helt enkelt en sekvens av ett visst antal (talet n) saker. För att göra en stor mängd data (till exempel texter från böcker, eller genomsekvenser) begripliga kan det ibland vara intressant hur många gånger vissa n-gram (kombinationer av ord, kombinationer av bokstäver, kombinationer av baser osv) förekommer.

Google är väldigt bra på att samla in data; de har sökt igenom en stor mängd texter och gjort databaser av förekomsten av olika n-gram, alltså olika kombinationer av två ord, tre ord, fyra ord och så vidare. Fast roligast att leka med är kanske 1-gram, alltså enstaka ord. Google har också gjort ett verktyg som ritar diagram åt oss. Låt oss titta på deras samling engelskspråkiga böcker. Det finns massor av skojiga sökningar på nätet, men jag tänkte på den här:

Jag vet inte riktigt vad det betyder, men kanske något att fundera på för beteendebiologer.