Top 2000, woorden uit de titel

De Top 2000. Tweede Kerstdag 2013 begon de vijftiende editie. Er zijn mensen die het 24 uur per dag op hebben staan. Daar hoor ik niet bij. Maar bij het koken (en dat doe ik nogal tijdens deze dagen) is het best geinig. Je ergeren aan stomme liedjes en weer die reclame maar ook keihard meezingen met liedjes die je vergeten bent maar keihard terugkomen als je de eerste klanken hoort.

En het is natuurlijk een prachtig voorbeeld van onschuldige “big data”. Er wordt niet veel geleverd, slechts de artiest, de naam van het liedje, het jaar van uitbrengen en de plaats op de ranglijst wordt gegeven. Als je er meer mee wil doen moet je of zelf aan de slag gaan (welke taal, plaats vorig jaar, etc.) of je moet het doen met wat er staat.

Wordle van de titels van de Top 2000

Wordle van de titels van de Top 2000

Rekenen en je verbazen is lekker dus ik heb de titels van de nummers in Excel gegooid en¬†ernaar gekeken. Als eerste heb ik een Wordle gemaakt via de site¬†http://www.wordle.net. Wat meteen opvalt is dat het allermeest voorkomende woord, by far, “love” (1,4%) is (de veel voorkomende woorden als “the” (4,2%), “you” (2,1%) etc. zijn er uitgehaald. De Nederlands staan er nog wel in. Ik kon ze er niet tegelijk uithalen).

Andere opvallende zaken als je naar de woordenlijst kijkt:

  • Er worden in 2000 titels slechts 2137 verschillende woorden gebruikt. het zijn er eigenlijk nog minder doordat “I’ll” apart geteld wordt bovenop “I” en “will”.
  • De gemiddelde lengte van een woord uit de Top 2000 is 5,6 tekens. Dat is nog niet zo interessant. Maar als je het vergelijkt met het gemiddeld aantal tekens in een Engels woord, dan is het veel. Op veel plekken wordt 5,1 genoemd als gemiddelde voor Engels teksten. Gek: Zelfs de Encyclopaedia Britannica heeft er minder (5,3) en academische teksten zitten er nog verder onder: 4,8 (bron: Wolfram Alpha)
  • De langste woorden uit de Top 2000 titels zijn: “Unbeschreiblich” en “Californication”, beiden bestaande uit 15 tekens. Goede tweede is “Investigations”. Je weet waarschijnlijk wel uit welke liedjes deze woorden komen.
  • De meest voorkomende, niet algemene woorden na “love” zijn “time” (0,41%), “life” (0,38%), “day” (0,35%) en “heart” (0,33%).
  • “man” komt 20 keer voor tegenover “woman” 16. “Girl” daarentegen komt 15 keer voor tegenover 7 keer voor “boy”.
  • “eyes” en “ears” komen bijna even vaak voor (9 vs 8)
Persoonlijk voornaamwoorden

Persoonlijk voornaamwoorden

Om eens te zien wat de stand van de mensheid is, heb ik ook even gekeken hoe het zit met het gebruik van de persoonlijk voornaamwoorden. We hebben nog een lange weg te gaan als het gaat om de participatiesamenleving. De persoonlijk voornaamwoorden 1e persoon komen bijna twee keer zo vaak voor als de 2e persoon. Wat zegt dat over ons?

Wil je ook nog iets weten over de woorden in de titels van de Top 2000? Kan via twitter: @arjanvandermeij of via de comments hieronder.

4 gedachten over “Top 2000, woorden uit de titel

  1. Pingback: Mediallespiegel. Maar dan eerlijker. - Plakken en knippen

  2. Pingback: Top 2000: een analyse - Plakken en knippen

  3. Pingback: Top 2000: een analyse - Sargasso

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *