Categoriearchief: Statistiek

Top 2000: de talen

Zo leuk! De talen waarin alle liedjes van de Top 2000 worden gezongen is ook in de database ingevuld. Met name Jeroen heeft hiervoor hard gewerkt. Het is soms nog best lastig. In welke taal staat bijvoorbeeld dat lied over die vliegtuigstoelen, “Holiday in Spain” van Bløf en The Counting Crows? “Nederlands/Engels” is dat geworden. En liedjes in het Fries, Drents, Achterhoeks, Limburgs? Op het gevaar af te verzeilen in allerhande fundamentele discussie heb ik (en alleen ik) besloten slechts Fries toe te laten omdat dat echt een officiële taal is. De rest is gewoon Nederlands

De conclusie is helder: Engels is, by far, de voertaal van de Top 2000. Van de 2000 liedjes worden er 1753 in het Engels gezongen. Dat is dus 87,65%. Tweede is, dat zal je niet verbazen, Nederlands: 187 liedjes dus net geen 10%. Onze oosterburen leveren 18 nummers, bijna 1% is Duits dus. De rest staat hiernaast in een schema en hieronder in een treemap, waarbij het relatieve oppervlakte aangeeft wat het aandeel is. Ik heb die ingekleurd met de vlaggen van landen waar de taal gesproken wordt. En ik weet dat veel, zo niet de meeste, liedjes niet uit het Verenigd Koninkrijk komen (waar de Union Jack de valt van is) maar dit is wel zo mooi. Ik maak volgend jaar, als de data helemaal op orde is, wel eens een analyse van de herkomst van de liedjes naar land.

Hieronder zie je de heatmap met de verdeling van de verschillende talen over de Top 2000 van 2018.

Een paar opvallende zaken:

  • De langste reeks Engelse nummer achter elkaar is van 1924 t/m 1977: 44 nummers achter elkaar.
  • De langste reeks niet-Engelse nummers achter elkaar is van 1443 t/m 1446: vier Nederlandstalige nummers (twee keer André Hazes in dat rijtje!).
  • Ook een mooi rijtje: 910, 911, 912, respectievelijk “De Bom” van Doe Maar, “In Nije Dei” van de kast en als laatste “Con te Partiro” van Andrea Bocelli.
  • Op 1098 en 1099 vinden we twee instrumentele nummers achter elkaar: “Peter Gunn Theme” van Emerson, Lake & Palmer en “Comptine D’Un Autre Été: L’Après-Midi (Amélie)” van Yann Tiersen.
  • De merkwaardigste, qua talen is nummer 1978, “Sadeness” van Enigma. Een deel daarvan is in het Latijn en een deel in het Frans.

Fijne jaarwisseling!

#top2000: lengte van de liedjes

<update: Heatmap met de lengtes van de nummers van de TOP 2000 toegevoegd. Klik op het plaatje om te vergroten>

Een paar dagen geleden vroeg ik om hulp bij het vullen van de database van de Top 2000 die ik bijhoud. En dat hebben er een boel gedaan! Een stuk of 12 fijne twitteraars hebben meegeholpen en op dit moment, vrijdag 28 december, 20.35 uur is meer dan 70% van de database gevuld. Grote klappen zijn gemaakt door Quint, mijn oud-leerling die de Spotify-API heeft gebruikt om automatisch de Spotify-link, de cover-art en de lengte van de nummers erin te zetten. Meer dan 90% van de nummers kon hij zo vinden. Jeroen, een van mijn oudste twittervrienden noteerde de niet-Engelstalige nummers uit en anderen gingen op zoek naar moeilijke nummers en artiesten. Heel vrolijk!

Een van de zaken waar ik erg benieuwd naar was en ben, is de lengte van de liedjes. En vandaag heb ik die helemaal aangevuld. Het is nu volledig. Let op: er bestaan vaak verschillende versies van nummers en de tijdsduur die op wikipedia staat is niet altijd helemaal gelijk aan die op Spotify staat maar grosso modo klopt het redelijk. Highlights en grafieken!

Highlights:

  • Het kortste nummer in de Top 2000 van 2018 is “Mercedes Benz” van Janis Joplin. Het duurt nog geen twee minuten: 1:47. Er zijn slechts drie andere nummers die korter duren dan twee minuten: “Georgia On My Mind” van Ray Charles (1:58), “For no one” van The Beatles (1:59) en “Blue Suede Shoes” van Elvis Presley (ook 1:59).
  • Het langste nummer is “Echoes” van Pink Floyd (plek 307):  23:32. Goede tweede is “Autobahn” van Kraftwerk (22:47, plek 906).
  • Er zijn 10 nummers die langer duren dan 10 minuten, de kortste van deze is van Deep Purple: Child in Time (!)
  • Als je alle nummers helemaal wil draaien ben je 144,5 uur kwijt. Dat zou moeten passen. De uitzending begon op 1e Kerstdag, 25 december om 08.00 uur en dus zijn er 16+6×24=160 uur beschikbaar. Het zou wel betekenen dat er maar zo’n 15,5 uur beschikbaar zou zijn voor praatjes, reclame en nieuws. Dat is ongeveer 5,5 minuut per uur. Dat wordt niet gehaald.
  • De gemiddelde lengte van een nummer uit de top 2000 is 4:20. De mediaan is 4:04 (de helft van de nummers is langer dan dat en de helft korter).
  • De meest voorkomende lengte van een nummer is 3:33. 25 nummers hebben die lengte (dit is dus de modus). Hiernaast staat de lijst van de nummers die 3 minuten en 33 seconde duren (niet kijken als je niet ge-Rickrolled wil worden).

Grafieken

Hieronder vind je een paar grafieken over de lengtes van de nummers. Als eerste een overzicht van alle lengtes. De lange en de korte zijn netjes verdeeld.

Nu met de hele lange en hele korte eruit. Het lijkt erop dat er wel wat meer langere liedjes bij de eerste 800 nummers staan.

De verdeling van de nummers. De meeste nummer zijn tussen de drie en de vier minuten lang, op de voet gevolgd door de categorie tussen vier en vijf minuten.

Hieronder zie je leverdeling van alle nummers (dus niet per minuut:

“Vroeger had je veel langere nummers!” Deze claim is ook te bekijken. Hieronder zie de grafiek van de lengte van de nummers door de jaren heen. Je ziet dat we begonnen met hele korte nummers. In de jaren zeventig werden ze soms heel lang maar daarna lijkt het uit te vlakken.

Arjan van der Meij

Top2000 Wordcloud 2018

Mijn grote vriend Arjan en ik delen de liefde voor muziek en nerden, dus wat is mooier dan aan het einde van het jaar Arjan te helpen met zijn jaarlijkse analyse van de top 2000. Een mooie gelegenheid om mijn recente programmeervaardigheden in Python en interesse in natural language processing op bot te vieren. Wat zou je zien als je alle Top2000 teksten op één hoop gooit?

Allereerst: alle credits voor de code, api en teksten naar Karanveer Singh, John Miller en Genius.com! En om maar met de deur in huis te vallen: als je 80.915 regels (dat is 1.557 A4-tjes op lettergrootte 12) oftewel 514.092 woorden oftewel 2.172.361 tekens op één hoop gooit, dan zie je dit: de WORDCLOUD TOP2000 2018! (klik op plaatje voor vergrote weergave)


Aangezien (volgens Google) circa 50%-60% van de liedjes over de liefde gaat, was mijn verwachting (en hoop) dat ‘love’ wel hoog zou eindigen. Dat bleek inderdaad het geval (4.017 maal), een mooie conclusie in deze kersttijd. Naast het hart bleek het hoofd goed vertegenwoordigd blijkens het prominente woord ‘know’ (3.018 maal). Ook ‘time’ komt vaak voor (1.559 keer), waarbij het vooral om het ‘now’ gaat (1.960 maal).

Het is geen verrassing dat de Engelse taal overheerst. Het Nederlandstalige aandeel van circa 8% (daarin Rowen Hèze, Neet Oet Lottum en Gé Reinders meegerekend) is te klein om een rol van betekenis te spelen. Dit is anders als we de wordcloud van de top10 maken. Daar domineert onze eigen Boudewijn de Groot met zijn standvastige ‘ik geloof’.

Gemiddeld heeft een nummer 40 regels (circa driekwart A4)  en 257 woorden. Let op: dit is inclusief herhaling, gemiddeld genomen is circa 37% van de woorden uniek. Hieronder staan de grootverbruikers van de top 2000 op een rijtje, met op kop de Sugarhill Gang. Zoals verwacht staan er nog meer rappers in dit lijstje (tweemaal Eminem) en opmerkelijk genoeg ook tweemaal Meat Loaf. Abba heeft zich ook bij de grootverbruikers gezongen, echter speelt enigszins vals door wel héél veel herhaling (Take a chance on me – 10% unieke woorden – zie tweede plaatje hieronder). Bob Dylan blijft van deze subset het meest origineel.

Kijkend naar de top10 is Billy Joel met zijn Piano Man het langst van stof, terwijl Pink Floyd en Pearl Jam onderaan bungelen. Echter als we naar de variëteit in woordgebruik kijken (berekend als het percentage unieke woorden), dan staan Pink Floyd en Pearl Jam weer fier aan de top. Dus beide bands zijn niet zo spraakzaam, echter als er wat gezegd wordt dan even opletten.

Wat betreft natural language processing: ook daarvoor heb ik me in eerste instantie gericht op de top10. Eens kijken wat er gebeurt als bij de sentimentsanalyse van Pythons’ Natural Language Processing Toolkit (NLTK) worden gehaald. Deze toolkit geeft de gebruikte woorden een score (positief, neutraal of negatief). In eerste instantie kwam daar weinig schokkends uit: grotendeels neutraal. Om het sentiment van de teksten te benadrukken, heb ik de positieve en negatieve scores versterkt en wel met de factor 10. Dat geeft het volgende beeld:

Een opmerkelijke uitslag met Led Zeppelin als meest positieve lied zonder maar één wolkje aan de hemel en best een positieve review voor Hotel California. De meest negatieve scores zijn voor Queen en Deep Purple, dat strookt wel met de verwachting gezien de schietincidenten. Met Boudewijn de Groot’s Avond kan de toolkit weinig ivm de taal.

Tot zover. Wij zijn druk met het verzamelen van data en hebben nog ideeën genoeg (o.a. jaar van uitgifte, genre etc). Dus we nerden nog even verder, wordt vervolgd!

Chris van Niekerk

Top 2000: data verzamelen

Al een aantal jaar ben ik een beetje aan het rommelen met de data van de Top 2000: de feestelijke afsluiting van het jaar op Radio 2. Radio 2 stelt de lijst in Excel beschikbaar en er zijn mensen die die data weer bij elkaar schrapen en er een totaalbestand van maken. Vorig jaar was ik weg in de Kerstvakantie maar dit jaar ben ik er weer en bekeek ik de “Lijst der Lijsten” weer eens.

Ik vond geen enkel bestand van alle nummers, zelfs niet t/m 2017, dus ik besloot die en die van 2018 zelf toe te voegen. Dat is nog geen sinecure: je moet twee lijsten in elkaar vlechten. En op radio 2 zijn ze niet heel consequent in de naamvoering. Zo zingen soms David Bowie & Tina Turner “Goodnight” en soms “Tina Turner & David Bowie”. Excel ziet dat als twee heel verschillende duo’s. Ik denk dat er een stuk of 100 per keer in staan die dat doen. Afijn. Mijn probleem en ik heb het opgelost. Alles staat er weer in.

Nu heb ik alhier weleens wat statistieken etc. gepubliceerd. Die zijn tijdens de recente hack verdwenen maar gelukkig was ik ze in 2016 gevraagd het ook te publiceren op Sargasso en daar stond het nog in volle glorie. Klik hier voor deze statistieken.

Een aantal van deze statistieken worden leuker als je meer jaren tot je beschikking hebt maar echt veel meer kan ik er niet aan toevoegen. En vele vragen die ik wel heb, kan ik niet met deze data beantwoorden.

Dit is de data die Radio 2 beschikbaar stelt:

  • Artiest
  • Titel
  • Release-jaar
  • Plaats in de top 2000 in het betreffende jaar

Je kunt daar natuurlijk wel wat extra data van maken. Zo kun je letters tellen, zoeken naar woorden in de titel (zo zijn er 5 titels waar het word “queen” in voorkomt en maar liefst 18 met “king”).  Maar hoeveel Nederlandstalige nummers erin staan, kun je niet weten. Hoeveel zijn er van een bandje? Zijn er in de top 50 meer bandjes dan solo-artiesten? Hoeveel rocknummers staan erin? Wat is het langste liedje? Wat het kortste? Hoe lang duurt het gemiddelde Duitstalige liedje?

Nu is mijn grote vriend Chris wel al aan de gang om de teksten erbij betrekken. Hij werkt met Python en de API van genius.com om bijvoorbeeld te kijken naar woordfrequenties of positief/negatief etc.

Ik zou dus echter meer gegevens willen hebben. Maar als ik dat allemaal zelf moet gaan doen van alle nummers, dan wordt dat een hele lange zit. Dus…

Crowdsourcen

Ik ga vragen of jullie mee willen helpen. Gewoon tussendoor, als je zin en tijd hebt, een paar nummers uitzoeken. Wat online zoekwerk op verschillende plekken, misschien weer even luisteren. Je mailt/DM-t me en ik deel de link naar de Google Sheets file (werkt hetzelfde als Excel). Beloning: nieuwe statistieken en, als je dat OK vindt, je naam op deze site als “contributor”.

Naar welke data ben ik op zoek?

  • Lengte van de song
  • Taal
  • Band/solo-artiest/duet
  • Nationaliteit band
  • Zanger/zangeres
  • Aantal leden van de band
  • Naam leadzanger/leadzangers
  • Genre (lastig, ik weet het)
  • URL YouTube
  • URL Spotify
  • URL plaatje single

[klik op het plaatje voor een voorbeeld]
We zullen wel zien hoever we komen. Als het goed gaat, kunnen we ook de nummers doen die ooit in de Top 2000 stonden maar nu niet meer. Als dat allemaal lukt, hoeven we volgend jaar alleen maar de nieuwe erbij te doen (een mens mag dromen nietwaar?).

Bronnen

Jullie kunnen vast beter zoeken dan ik maar voor de veiligheid de plekken waar ik mijn informatie over de nummers vind:

Goed. Mail of DM me als je mee wil doen. Hoe dan ook. Merry Christmas!

Arjan