Alla måste leka med Google Ngrams

Ett n-gram är en helt enkelt en sekvens av ett visst antal (talet n) saker. För att göra en stor mängd data (till exempel texter från böcker, eller genomsekvenser) begripliga kan det ibland vara intressant hur många gånger vissa n-gram (kombinationer av ord, kombinationer av bokstäver, kombinationer av baser osv) förekommer.

Google är väldigt bra på att samla in data; de har sökt igenom en stor mängd texter och gjort databaser av förekomsten av olika n-gram, alltså olika kombinationer av två ord, tre ord, fyra ord och så vidare. Fast roligast att leka med är kanske 1-gram, alltså enstaka ord. Google har också gjort ett verktyg som ritar diagram åt oss. Låt oss titta på deras samling engelskspråkiga böcker. Det finns massor av skojiga sökningar på nätet, men jag tänkte på den här:

Jag vet inte riktigt vad det betyder, men kanske något att fundera på för beteendebiologer.