Auteursarchief: Chris van Niekerk

Top2000 Wordcloud 2018

Mijn grote vriend Arjan en ik delen de liefde voor muziek en nerden, dus wat is mooier dan aan het einde van het jaar Arjan te helpen met zijn jaarlijkse analyse van de top 2000. Een mooie gelegenheid om mijn recente programmeervaardigheden in Python en interesse in natural language processing op bot te vieren. Wat zou je zien als je alle Top2000 teksten op één hoop gooit?

Allereerst: alle credits voor de code, api en teksten naar Karanveer Singh, John Miller en Genius.com! En om maar met de deur in huis te vallen: als je 80.915 regels (dat is 1.557 A4-tjes op lettergrootte 12) oftewel 514.092 woorden oftewel 2.172.361 tekens op één hoop gooit, dan zie je dit: de WORDCLOUD TOP2000 2018! (klik op plaatje voor vergrote weergave)


Aangezien (volgens Google) circa 50%-60% van de liedjes over de liefde gaat, was mijn verwachting (en hoop) dat ‘love’ wel hoog zou eindigen. Dat bleek inderdaad het geval (4.017 maal), een mooie conclusie in deze kersttijd. Naast het hart bleek het hoofd goed vertegenwoordigd blijkens het prominente woord ‘know’ (3.018 maal). Ook ‘time’ komt vaak voor (1.559 keer), waarbij het vooral om het ‘now’ gaat (1.960 maal).

Het is geen verrassing dat de Engelse taal overheerst. Het Nederlandstalige aandeel van circa 8% (daarin Rowen Hèze, Neet Oet Lottum en Gé Reinders meegerekend) is te klein om een rol van betekenis te spelen. Dit is anders als we de wordcloud van de top10 maken. Daar domineert onze eigen Boudewijn de Groot met zijn standvastige ‘ik geloof’.

Gemiddeld heeft een nummer 40 regels (circa driekwart A4)  en 257 woorden. Let op: dit is inclusief herhaling, gemiddeld genomen is circa 37% van de woorden uniek. Hieronder staan de grootverbruikers van de top 2000 op een rijtje, met op kop de Sugarhill Gang. Zoals verwacht staan er nog meer rappers in dit lijstje (tweemaal Eminem) en opmerkelijk genoeg ook tweemaal Meat Loaf. Abba heeft zich ook bij de grootverbruikers gezongen, echter speelt enigszins vals door wel héél veel herhaling (Take a chance on me – 10% unieke woorden – zie tweede plaatje hieronder). Bob Dylan blijft van deze subset het meest origineel.

Kijkend naar de top10 is Billy Joel met zijn Piano Man het langst van stof, terwijl Pink Floyd en Pearl Jam onderaan bungelen. Echter als we naar de variëteit in woordgebruik kijken (berekend als het percentage unieke woorden), dan staan Pink Floyd en Pearl Jam weer fier aan de top. Dus beide bands zijn niet zo spraakzaam, echter als er wat gezegd wordt dan even opletten.

Wat betreft natural language processing: ook daarvoor heb ik me in eerste instantie gericht op de top10. Eens kijken wat er gebeurt als bij de sentimentsanalyse van Pythons’ Natural Language Processing Toolkit (NLTK) worden gehaald. Deze toolkit geeft de gebruikte woorden een score (positief, neutraal of negatief). In eerste instantie kwam daar weinig schokkends uit: grotendeels neutraal. Om het sentiment van de teksten te benadrukken, heb ik de positieve en negatieve scores versterkt en wel met de factor 10. Dat geeft het volgende beeld:

Een opmerkelijke uitslag met Led Zeppelin als meest positieve lied zonder maar één wolkje aan de hemel en best een positieve review voor Hotel California. De meest negatieve scores zijn voor Queen en Deep Purple, dat strookt wel met de verwachting gezien de schietincidenten. Met Boudewijn de Groot’s Avond kan de toolkit weinig ivm de taal.

Tot zover. Wij zijn druk met het verzamelen van data en hebben nog ideeën genoeg (o.a. jaar van uitgifte, genre etc). Dus we nerden nog even verder, wordt vervolgd!

Chris van Niekerk