Categoriearchief: Crowdsourcen

Top 2000: data verzamelen

Al een aantal jaar ben ik een beetje aan het rommelen met de data van de Top 2000: de feestelijke afsluiting van het jaar op Radio 2. Radio 2 stelt de lijst in Excel beschikbaar en er zijn mensen die die data weer bij elkaar schrapen en er een totaalbestand van maken. Vorig jaar was ik weg in de Kerstvakantie maar dit jaar ben ik er weer en bekeek ik de “Lijst der Lijsten” weer eens.

Ik vond geen enkel bestand van alle nummers, zelfs niet t/m 2017, dus ik besloot die en die van 2018 zelf toe te voegen. Dat is nog geen sinecure: je moet twee lijsten in elkaar vlechten. En op radio 2 zijn ze niet heel consequent in de naamvoering. Zo zingen soms David Bowie & Tina Turner “Goodnight” en soms “Tina Turner & David Bowie”. Excel ziet dat als twee heel verschillende duo’s. Ik denk dat er een stuk of 100 per keer in staan die dat doen. Afijn. Mijn probleem en ik heb het opgelost. Alles staat er weer in.

Nu heb ik alhier weleens wat statistieken etc. gepubliceerd. Die zijn tijdens de recente hack verdwenen maar gelukkig was ik ze in 2016 gevraagd het ook te publiceren op Sargasso en daar stond het nog in volle glorie. Klik hier voor deze statistieken.

Een aantal van deze statistieken worden leuker als je meer jaren tot je beschikking hebt maar echt veel meer kan ik er niet aan toevoegen. En vele vragen die ik wel heb, kan ik niet met deze data beantwoorden.

Dit is de data die Radio 2 beschikbaar stelt:

  • Artiest
  • Titel
  • Release-jaar
  • Plaats in de top 2000 in het betreffende jaar

Je kunt daar natuurlijk wel wat extra data van maken. Zo kun je letters tellen, zoeken naar woorden in de titel (zo zijn er 5 titels waar het word “queen” in voorkomt en maar liefst 18 met “king”).  Maar hoeveel Nederlandstalige nummers erin staan, kun je niet weten. Hoeveel zijn er van een bandje? Zijn er in de top 50 meer bandjes dan solo-artiesten? Hoeveel rocknummers staan erin? Wat is het langste liedje? Wat het kortste? Hoe lang duurt het gemiddelde Duitstalige liedje?

Nu is mijn grote vriend Chris wel al aan de gang om de teksten erbij betrekken. Hij werkt met Python en de API van genius.com om bijvoorbeeld te kijken naar woordfrequenties of positief/negatief etc.

Ik zou dus echter meer gegevens willen hebben. Maar als ik dat allemaal zelf moet gaan doen van alle nummers, dan wordt dat een hele lange zit. Dus…

Crowdsourcen

Ik ga vragen of jullie mee willen helpen. Gewoon tussendoor, als je zin en tijd hebt, een paar nummers uitzoeken. Wat online zoekwerk op verschillende plekken, misschien weer even luisteren. Je mailt/DM-t me en ik deel de link naar de Google Sheets file (werkt hetzelfde als Excel). Beloning: nieuwe statistieken en, als je dat OK vindt, je naam op deze site als “contributor”.

Naar welke data ben ik op zoek?

  • Lengte van de song
  • Taal
  • Band/solo-artiest/duet
  • Nationaliteit band
  • Zanger/zangeres
  • Aantal leden van de band
  • Naam leadzanger/leadzangers
  • Genre (lastig, ik weet het)
  • URL YouTube
  • URL Spotify
  • URL plaatje single

[klik op het plaatje voor een voorbeeld]
We zullen wel zien hoever we komen. Als het goed gaat, kunnen we ook de nummers doen die ooit in de Top 2000 stonden maar nu niet meer. Als dat allemaal lukt, hoeven we volgend jaar alleen maar de nieuwe erbij te doen (een mens mag dromen nietwaar?).

Bronnen

Jullie kunnen vast beter zoeken dan ik maar voor de veiligheid de plekken waar ik mijn informatie over de nummers vind:

Goed. Mail of DM me als je mee wil doen. Hoe dan ook. Merry Christmas!

Arjan