Hexadecimale kleurwoorden

Vakantie! En dus klooien. Ik checkte de linkdump van het allerleukst maakbedrijfje van de hele wereld (Evil Mad Scientist Laboratory, zie ook hier voor ons een verslag van ons bezoek aan hen in 2014). Een had de intrigerende titel: “Which real words are valid CSS hex colors?” Het verwees naar deze site: http://c0ffee.surge.sh
Ik houd van klooien met woorden. Zie daarvoor ook mijn posts over de titels uit de Top 2000 (en hier) en over de elementen die ook woorden zijn. Hier werd er gekeken naar welke hexadecimale (zie boven)kleurcodes ook Engelse woorden zijn.  Ik wilde graag weten of er ook Nederlandse woorden te vinden zijn en welke dat dan zijn.

De restricties om de woorden te vinden zijn helder:

  • Het moeten zes tekens zijn
  • De woorden mogen alleen worden gemaakt met de letters A t/m F

Ik heb gebruik gemaakt van een openbare woordenlijst
Vermoedelijk staan hier niet alle worden in maar de belangrijkste ongetwijfeld wel. 

Deze lijst heb ik geïmporteerd in Excel en daarna heb ik wat Excel-hocus-pocus (als je wil weten hoe, laat het me even weten) toegepast en de Nederlandse woorden gevonden die voldoen aan de we voorwaarden hierboven. Ik zag echter in de Amerikaanse versie dat er vervoegingen werden gebruikt en die moest ik ook nog zoeken. Dat heb ik gedaan door stevig na te denken. Wellicht ben ik niet compleet maar dan hoor ik dat natuurlijk graag!
 Je zou bezwaar kunnen maken tegen #FACADE vanwege het feit dat je eigenlijk façade schrijft met een cédille. In de Amerikaans versie gaan ze nog wat verder en zoeken ze ook naar woorden die een “O”, een “I”, een “S” of een “T” bevatten. Die worden dan gezien als respectievelijk een 0, een 1, een 5 en een 7. Dan wordt de lijst een stuk groter:

Hier heb ik de vervoegde werkwoorden niet bij gezocht (denk bv. aan #TASTTE). Dat zijn waarschijnlijk behoorlijk veel en vergt heftig speurwerk. En deze laatste zijn toch al niet de leukste (hoewel, #5AFF1E…)

Als laatste heb ik, naar aanleiding van een idee van Rolf, even gecheckt of er voornamen zijn die aan deze voorwaarden voldoen. Zou leuk zijn natuurlijk: je naam is dan ook een kleur. Helaas. Er is er geen een. De enige die in de buurt kwam was “Debbie”.  Alleen die “i”…

Gerookt/geroken

Zo nu en dan, vaak in de vakantie, is mijn hoofd leeg genoeg kennelijk en sluipen er taaldingen naar binnen. Onderweg naar Hoek van Holland dacht ik aan de woorden “gerookt” en “geroken”. Beiden voltooid deelwoorden, een met een -t aan het einde en een met =-en aan het einde. 

Ik vroeg op mijn geliefde medium Twitter of er meer van dat soort paren woorden zijn:

Het duurde heel even maar ik kreeg al snel een boel antwoorden:

-t of -d -en aanbrenger
gebleekt gebleken @pavl
gestookt gestoken @SylviaFysica
gestokt gestoken @trendmatcher
geschrokt geschrokken @SylviaFysica
geweest gewezen @lbfbourdrez
ontlokt ontloken @MaaikeHazel
geweekt geweken @karinwinters
geslaagd geslagen @MaaikeHazel
gevlogd gevlogen @MartijnSytsma
gesleept geslepen @graaffloris
geleegd gelegen @joopberding
geloogd gelogen @carlamondig
gelegd gelegen @carlamondig
geboogd gebogen @carlamondig
gezoogd gezogen @carlamondig
gezet gezeten @kdenheijer
gesloopt geslopen @HenkPuffelmans
gestrekt gestreken ik
gemaald gemalen @JasperKlewer
gedokt gedoken @epvsp
gemaald gemalen @leoniecornips
geboord geboren @graaffloris
gelekt geleken @Zinnig_en_Zo
gezond gezonden @maartyeah
gestold gestolen  @Zinnig_en_Zo
genood genoten @maartyeah
gebed gebeden @carlamondig
gespot gespoten @Zinnig_en_Zo
geborgd geborgen @maartyeah
bezet bezeten @marteink

 

Deze lijst kan worden aangevuld. Ik ga vanavond wellicht nog even Opperlandse Taal- en Letterkunde of Opperlans! Taal- en Letterkunde van Battus even doorkijken of hij het niet al  eerder beschreven heeft. Ik reken daar eigenlijk wel op. Voor nu: laat ze maar komen en dank alvast!

Oh ja, de hashtag is #gerooktgeroken

Interessante waarneming: 

 

 

Top 2000: een analyse

Ik heb er al eens eerder over geschreven en vorige jaar wat getweet. Maar ik kan het niet laten. Een paar dezelfde dingen als de voorgaande jaren en wat nieuwe dingen. Gewoon, op grond van de data die beschikbaar is. Ik gebruik de lijst die staat op wikipedia. Ik heb eerst geprobeerd de lijst van de Top 200o zelf te mergen. Die verschilt echter met vorig jaar soms. Zo staat er in de oude lijst bijvoorbeeld wel eens: “Prince” en in de nieuwe “Prince and the Revolution”. En mijn Excel snapt dan niet dat dat hetzelfde is. Uiteindelijk heb ik deze lijst gebruikt. De analyse gaat over de data van 2016 behalve als dat niet zo is. Dan wordt dat aangegeven. Voel je vrij om ook aan de slag te gaan!

Als ik zin en tijd heb, zoek ik wat uit. Dat betekent 
dat dit document groeit. Kom nog eens terug om nieuwe 
dingen te bekijken.

Afijn. Hieronder staat een lijst met zaken die ik tot nu heb uitgezocht. Klik erop en je wordt verder geleid. Als je iets wil weten wat ik kan uitzoeken, hoor ik het wel. Let op: ik gebruik slechts de artiest, de titel en het jaar van uitbrengen. Vetgedrukt is onlangs toegevoegd.

Welke woorden komen het vaakst voor?

Zeker in 2016, toch op wereldschaal een beetje een annus horribilis, vind ik het fijn te zien dat LOVE weer wint.

De meest voorkomend woorden top 20:

Links zie je een overzicht van alle woorden, rechts van de woorden die interessant zijn. Het totaal aantal woorden in de titels van de Top 2000 2016 is 5979.

Zoals gezegd is “love” de winnaar. Musici zijn enorme romantici. Als je zoekt op de website wordfrequency.info zie dat “love” pas op de 391e plek komt in het Engels Corpus. Slechts 0,031% van de woorden is “love” (één op 3200 woorden). In de Top 2000 is dat 1,56%, dus één op de 64 woorden is “love”!

De Nederlandstalige top 20 samenstellen is lastig. Veel woorden in het Engels betekenen ook iets in het Engels. “Lover” bijvoorbeeld. Die haal je er natuurlijk uit: die zal veel vaker in het Engels voorkomen. Maar “me”? en “is”? 

Afijn. Ik heb een poging gewaagd met alleen maar woorden die duidelijk Nederlands zijn (hoewel, “van” is natuurlijk ook een personenbusje,…). In het begin natuurlijk veel algemene woorden. Zoals gezegd missen er een paar, zoals “me”. In mijn eenvoudige Excel-database is niet te vinden of een liedje Nederlandstalig is of niet. Dat zou ik wel kunnen doen maar is wel heel veel werk, denk ik. Later wellicht. 

Het eerste “interessante” woord dat je tegenkomt is “hart”. Wellicht logisch (“Bloedend hart”, “Houten Hart”) maar het is toch opvallend dat het woord “liefde” pas heel veel later komt (op plek 490, slechts in twee liedjes. Welke?) maar dat is natuurlijk niet helemaal eerlijk. In het Engels is “love” ook een woord voor “houden van”. Even gekeken: “hou” komt vier keer voor in de lijst. Maar goed, om een eerlijke vergelijking te maken moet ik weten hoeveel Engelstalige liedjes erin staan en hoeveel Nederlandse.

Kleuren in de Top 2000

Een andere telling die ik gedaan heb, is de telling van de kleuren, althans de Engelse. Ik gebruik een brede definitie van kleuren. “Golden” en “Silver” doen ook mee. “Ruby”, hoewel soms in gebruik als kleur, heb ik niet meegeteld. Als ik het goed zie, wordt deze naam (best vaak trouwens) gebruikt als naam.


Hierboven zie je het spectrum (ik weet, het is niet een echt fysisch spectrum) met de juiste lengtes. Zwart en blauw winnen. Kleuren worden, kennelijk vooral gebruikt in liedjes op een negatieve manier. Mijn lievelingskleur, “orange” komt, als enige kleur uit het spectrum, helemaal niet voor, evenals de niet in het echte spectrum voorkomende “pink”. 

Je ziet hiernaast de precieze percentages van alle kleuren. Ik vond overigens maar 58 keer een kleurnaam.

 

Top 2000 lichaamsdelen

Ook heb ik de lichaamsdelen geteld. Ik heb hierbij het hart (bij elkaar 22x) overgeslagen. Vooral ogen, weinig benen en vier hoofden.

 

 

 

 

 

 

 

Positief/negatief

Uit de Top 2000 valt natuurlijk niet echt het humeur van de samenleving te destilleren maar toch was ik benieuwd naar de balans tussen positieve en negatieve woorden in de teksten. En ja, ik snap dat “nothing” weliswaar negatief is maar in de zin “Nothing compares to you” juist weer positief is. Ik heb echter gewoon geteld omdat de positieve term “everything” in “there goes my everything” juist weer negatief is. Afijn.

 

 

De doden van 2016

Er zijn nogal wat popartiesten gestorven in 2016. Zoals iemand twitterde vanmorgen na het bericht van de dood van George Michael: “Welk festival wordt er in de hemel gehouden?”. Ik heb alle nummers gezongen/gespeeld dor de volgende doden zwart gemaakt:

  • David Bowie
  • Black
  • Glenn Frey (Eagles)
  • Keith Emerson (Emerson, Lake and Palmer)
  • Prince
  • Billy Paul
  • John Berry Beasty boys
  • Leonard Cohen
  • Rick Parfitt (Status Quo)
  • George Michael

Ik had ook wel Toots Thielemans mee willen nemen maar van hem (net zoals van Mieke Telkamp en Eddy Wally) staat geen nummer in de Top 2000. Klik vooral op het plaatje om hem te vergroten. 

Zelfde titels

Tweeduizend liedjes. Dan kun je natuurlijk niet verwachten dat het allemaal andere titels zijn. En dat is ook niet zo. Er zijn vier titels die twee keer voorkomen en er zijn er zelfs twee die drie keer voorkomen: “Crazy” van Seal, Gnarls Barkley en Aersomith en “One” van Mettallica van U2 en van Mary J. Blige (&U2). Queen staat er in feite twee keer in met “Somebody to love”, de tweede keer met George Michael.

De letters van de titels

Vorig jaar had ik al eens opgemerkt dat er slechts één band een palindroomnaam heeft: ABBA. En wat geestig is, is dat uitgerekend deze band één van de twee titels heeft uitgebracht die een palindroom is: SOS! De andere is Mmm mmm mmm van de Crash Test Dummies.

De wedstrijd welke is het lied met de meeste leestekens kent wel drie winnaars: het mooie lied van Ramses Shaffy: “Zing, vecht, huil, bid, lach, werk en bewonder” (vijf komma’s), “Turn! Turn! Turn! (to everything there is a reason)” en “Gimme! Gimme! Gimme! (a man after midnight). Die laatste twee hebben beiden drie uitroeptekens en twee haakjes. “In-a-gadda-da-vida” van Iron Butterfly mag er ook zijn met vier koppeltekens.

Ik heb ook gezocht naar titels met getallen in de titel. Na wat opschoonwerk in Excel (alle gewoon karakters en leestekens weg), hield ik 26 nummers over met een of meer getallen in de titel. Daarbij het ik geschreven nummers (“One” bijvoorbeeld) genegeerd. Meerder getallen in een nummer heb ik achter elkaar geplakt. En dan wint Doe Maar met “32 jaar (Sinds 1 dag of 2)”. Wellicht had Bruno Mars moeten winnen: 24k is natuurlijk 24000. Oh nee, Katie Melua. Onbetwist. “Nine million bicycles”. 

Langste en kortste titel

Sommige titels zijn enorm lang, anderen extreem kort. Ook daar heb ik naar gekeken. Hieronder zie je de twee ranglijsten. Grappig: U2 staat in beide lijstje. Een keer met “Still haven’t found what I’m looking for”  en een keer met “Bad”. De Manic Street Preachers hebben de eer met de allermeeste letters in de Top 2000 te staan: 59 bij elkaar met hun nummer: “If you tolerate this your children will be next”. 

Alfabetische titels

Houd je vast. Het wordt nu wel erg nerdy (ga gerust gewoon weer luisteren naar de Top 2000 hoor). Ik heb wat alfabetische testen gedaan. Zoals altijd schatplichtig aan Battus. 

Als eerste gekeken in welke nummers de letters van het alfabet maar een keer voorkomen. Dat zijn er nog best veel trouwens: 240 (12% dus). Bij titels die uit twee letters bestaan is dit niet zo raar natuurlijk. Langere zijn leuker. De langste staan hiernaast. Nummer 1, “Black or white” van Michael Jackson, heeft er 12, de nummers 2 hebben er 11 en de nummers 3 10.

“Lost” van Anouk (nummer 441) en “Biko” van Peter Gabriel (854) zijn de enige nummers met een lengte van vier letters die ook op alfabetische volgorde staan in het woord. Andersom kan ook: de letters staan in omgekeerde alfabetisch volgorde in de titel. Hier vinden we er twee met vijf letters: “Sonne” van Rammstein (nummer 187) en “Wrong” van Novastar. Een eervolle vermelding voor “YMCA” van De Village People natuurlijk. 

Verdeling over de jaren

Een standaardding in de statistiek: verdelingen! Gewoon vergeten tijdens het nerden. Eerst maar eens per jaar. Best interessant:

Rare dingen zitten er in. De eerste in 1939 (Strange Fruit van Billy Holiday) maar daarna in één keer vier! En niet de minste: Johnny Cash, Frank Sinatra en twee keer Elvis Presley. Even tussendoor:

Dat daarna de aantallen stijgen is logisch: de opkomst van de Rock and Roll is daar verantwoordelijk voor natuurlijk. Wel bijzonder: 1979 is het topjaar met 65 liedjes. Dat is er meer dan één per week. Het gemiddelde is zo’n 32 per jaar waarin er minstens één in voorkomt. Verder is 2010 een merkwaardig beroerd jaar: slechts 12 nummers uit de Top 2000 komen uit dat jaar. De jaren 2013 en 2014 hebben evenveel nummers in de lijst en ook best veel: 52. Dat gaat alweer naar de aantallen uit de jaren 70 terug.

De verdeling als je kijkt naar de decennia is weer wat logischer:

Je vraagt je af of dat verandert is in de loop van de top 2000. We gaan het na (kost wel even wat Excel gedoe…).

Als eerste alle uitzendjaren in een grafiek. Een (best mooie) wirwar:

Echt veel informatie is er niet uit te halen. Wel zie je dat het maximum aantal nummers uit een jaar 97 was. Dat was het jaar 1969 in het uitzendjaar 2002. Verder zie je mooi de uitzendjaren aan het einde van de grafiek. Er is daar wel iets opvallend. Je moet wel goed kijken. In 2008 stond er geen enkel nummer uit 2008 in. Maar dat kan kloppen! In 2008 was de 10e aflevering. Je kon toen niet stemmen, de lijst werd gemaakt m.b.v. de voorgaande lijsten. Lees er hier meer over.

Ook leuk om te kijken naar het totaal. Ik heb hiervoor van elk jaar het aantal nummers uitgebracht in een jaar opgeteld over alle 18 edities. Deze verdeling ziet er al bijna “normaal” uit. 

Beste jaar is duidelijk 1969 en slechtste van de “goeie tijd” is 1981.

Misschien wel de mooiste van allemaal is de verdeling per decennium over de verschillende edities. Je ziet de jaren “0” en de jaren “10” beginnen en jaren zestig langzaam uitdoven. De “hik”bij 2008 laat zich verklaren door het feit dat dit een optelling is van de voorgaande negen edities.

De onderstaande grafiek doet hetzelfde maar dan voor elk jaar in plaats van voor elk decennium. Minder goed leesbaar maar esthetisch best fijn. Zoals Per-Ivar (die heel vaak rake dingen zegt) net zegt: “Het langetermijngeheugen van de soort mens in kaart gebracht.” Klik er vooral even op, dan zie je het beter.

Heatmap jaar

En de laatste van dit jaar: een heatmap van het jaar van uitbrengen van de nummers van de Top 2000 van 2016. Hoe lichter hoe jonger (precies andersom als boven dus). Je ziet eigenlijk geen enkele patroon. En dat is mooi. Kennelijk zitten er oude en nieuwe nummers door elkaar heen in de Top 2000. Misschien alleen bij de eerste 100 wat meer oude (donkere nummers). Een mooi nieuw jaar gewenst!

 

Het periodiek systeem der elementen. En woorden.

Het begon met een tweet:

https://twitter.com/SciencePorn/status/696162823785877504

SciencePorn, een geweldig twitteraccount laat een Venn diagram zien van twee verzameling en hun doorsnede. Het gaat hier om de verzameling elementen, althans de afkortingen daarvan en de afkortingen van de staten van de Verenigde Staten. Zo is “Ne” de afkorting van het element Neon en de afkorting van de staat Nebraska. SciencePorn schrijft: “so satisfying” en dat vind ik ook.

Mijn hoofd ging meteen aan en al heel snel dacht ik aan Nederlandse woorden die hetzelfde zijn als de afkortingen. “La” bijvoorbeeld, de afkorting van Lanthaan heeft een mooie betekenis in het Nederlands. En als dit eenmaal in mijn hoofd zit, dan is dat er lastig uit te halen. En ondanks de jetlag ben ik meteen aan de slag gegaan.

Allereerst zocht ik een mooi bestand met alle elementen. Na wat zoeken en oppoetsen had ik deze in Excel en dus ook in Word beschikbaar. Ik zocht naar de afkortingen die ook woorden zijn in het Nederlands en liep als snel tegen het volgende probleem op: ik ken natuurlijk niet alle tweeletterige woorden. Na eerst even met mijn Dikke van Dale in de hand te hebben gestaan, bedacht ik dat er vast lijsten bestaan met tweeletterige woorden. Google bevestigde dat: tweeletterwoorden voor Wordfeud!

En toen was het een kwestie van deze lijsten naast elkaar leggen! Ik dacht voordien nog dat er veel meer tweeletterwoorden zouden zijn dan elementen. Maar dat was dus niet het geval. Er zijn zelfs meer elementen (118: Ac, Ag, Al, Am, Ar, As, At, Au, B, Ba, Be, Bh, Bi, Bk, Br, C, Ca, Cd, Ce, Cf, Cl, Cm, Co, Cr, Cs, Cu, Db, Ds, Dy, Er, Es, Eu, F, Fe, Fm, Fr, Ga, Gd, Ge, H, He, Hf, Hg, Ho, Hs, I, In, Ir, K, Kr, La, Li, Lr, Lu, Md, Mg, Mn, Mo, Mt, N, Na, Nb, NdNe, Ni, No, Np, O, Os, P, Pa, Pb, Pd, Pm, Po, Pr, Pt, Pu, Ra, Rb, Re, Rf, Rg, Rh, Rn, Ru, S, Sb, Sc, Se, Sg, Si, Sm, Sn, Sr, Ta, Tb, Tc, Te, Th, Ti, Tl, Tm, U, Uub, Uuh, Uuo, Uup, Uuq, Uus, Uut, V, W, Xe, Y, Yb, Zn, Zr) dan twee letterwoorden (90: Ab,  Ad,  Af,  Ah,  Ai,  Al,  Am,  As,  Ar,  Au,  Be,  Bi,  Bo,  Br,  Co,  De,  Do,  Eb,  Eg,  Ei,  El,  En,  Er,  Es,  Ex,  Fa,  Ga,  Ge,  Go,  Ha,  He,  Hi,  Hm,  Ho,  Hu,  Ia,  Id,  Ie,  Ik,  In,  Io,  Is,  Ja,  Je,  Ju,  Ka,  Ks,  Ku,  La,  Li,  Ma,  Me,  Mi,  Mu,  Na,  No,  Nu,  Of,  Oh,  Oi,  Om,  On,  Op,  Os,  Pa,  Pf,  Pi,  Po,  Pu,  Ra,  Re,  Ri,  Sa,  Si,  Te,  Ti,  Tu,  Uh,  Ui,  Uk,  Up,  Ut,  Uw,  Va,  Wa,  We,  Xi,  Yo,  Ze,  Zo).

Het leidt tot dit Venn-diagram:

doorsnedeplaatje

Het periodiek systeem kent natuurlijk chemische reeksen als alkalimetalen, aardalkalimetalen, overgangsmetalen, hoofdgroepmetalen, metalloïden, niet-metalen, halogenen, edelgassen en lanthaniden maar we kunnen we vanaf vandaag een aan toevoegen: de Nederlandse woordenreeks. U ziet ze hieronder in het (hoe kan het ook anders) oranje.

periodiektotaal2

(Versie 2: de “O” is toegevoegd. Dank aan Marc van Oostendorp voor de opmerkzaamheid! Bewijs.)

Nu nog een opgave. Bedenk een zo lang mogelijke zin met deze woorden. Elk woord maar een keer gebruiken en geen puntkomma’s waar je een punt zou verwachten. De te gebruiken woorden zijn: Al,  Am,  Ar,  As,  Au,  Be,  Bi,  Br,  Co,  Er,  Es,  Ga,  Ge,  He,  Ho,  In,  La,  Li,  Na,  No,  O, Os,  Pa,  Po,  Pu,  Ra,  Re,  Si,  Te,  Ti en U

Twee voorbeelden met zes woorden:

Ho, ga er in na pa!

en

Ga na, te bi, te au!

Die laatste is niet echt heel mooi. Kom maar op!

Amerikanen die geconfronteerd variant gezondheidsprobleem, kan zodanig geneesmiddelen families van internet kopen zonder enig probleem. Verschillende geneesmiddelen worden meestal gebruikt om anders soorten van bacteriële infecties, hoe bronchitis en neus- behandelen. Viagra is een recept medicijn dat wordt gebruikt om impotentie te trakteren. Hieronder hij twaalf tips over “viagra“. Meest waarschijnlijk iedere man weet “kamagra jelly kopen“. Een wetenschappelijk onderzoek over “viagra kopen” blijkt dat mensen de zeer voorkomende seksueel probleem is ED. De tekenen van seksuele aandoeningen bij mannen zijn onder andere een gebrek aan belangstelling voor seksueel contact. Gewoonlijk de behandeling van opties kunnen onder meer erectiele dysfunctie remedies of hormoonbehandelingen. Krijg medische hulp als u enige vorm van een allergische reactie op dit medicijn. Praat met uw apotheker om te zien of het waterdicht om de overstap te ervoor.