Het is lastig om wetenschappelijke publicaties te beoordelen. Vaak komt er ingewikkelde statistiek bij kijken. Maar er is een eenvoudig middel waarmee je althans soms kunt nagaan dat het om onzin gaat. Dat is namelijk als de auteur het heeft over de ‘kans op toeval’. Wie die woorden gebruikt heeft het niet begrepen.
Met even googelen vind je bijvoorbeeld een uitleg over het begrip significantie met de volgende zin “Vinden we geen significant verschil (dus een kans groter dan 5% dat het toeval is)…” . Dan hoef je niet meer verder te lezen. In het Engels is het niet moeilijk om zinnen tegen te komen als “We see some differences, but want to know if those differences are likely due to chance” en “it [het statistische pakket] will show you ‘.05,’ meaning that the finding has a five percent (.05) chance of not being true.”
Loterijen
Er is vrijwel geen enkele loterij waar de uitslag ‘het is toeval’ of ‘het is geen toeval’ luidt. Wat er wel gebeurt is dat onderzoekers een of ander resultaat vinden, en zich dan afvragen: ‘Stel dat het proces dat tot dit resultaat geleid heeft volledig door toeval bepaald wordt, en er dus helemaal geen speciaal effect is, wat voor kans zou er dan geweest om dit resultaat te krijgen?’ In dat geval heb je een duidelijk kansmodel (‘er is niks aan de hand’) en dan kun je aan de hand van het model de kans uitrekenen. Meestal gaat het dan niet om ‘dit resultaat’ maar om ‘dit of een extremer resultaat’. Als die kans slechts 1 op 20 of nog kleiner is, is het gebruik om te denken dat er misschien toch iets aan de hand is, en dat noemen we dan significant, wat dus jargon is voor: het heeft heel misschien iets te betekenen. Die 1 op 20 is dus niet de kans dat het effect puur een toevalseffect is. Het is de berekende kans om een dergelijke uitkomst te krijgen als het wel degelijk toeval is. (De echte kans op de gevonden uitkomst is natuurlijk gewoon 1, want het is gebeurd.)
Als je aan een loterij meedoet met tienduizend loten en één prijs, dan kan de winnaar – en iedereen anders trouwens ook – achteraf uitrekenen dat de kans dat die ene persoon de prijs zou winnen slechts één op tienduizend was. Er is niettemin geen enkele reden om dan te denken dat er iets anders dan toeval een rol heeft gespeeld, en al helemaal niet dat de kans dat de winnaar níét door een hogere macht begunstigd is slechts 0,0001 is. De winnaar kan dat gevoel natuurlijk wel hebben, speciaal als hij de prijs goed kan gebruiken, maar het blijft onzin.
Is er echt iets aan de hand bij een significant resultaat? Laten we uitgaan van een situatie die helaas helemaal niet denkbeeldig is. Er zijn 1000 onderzoekers die de meest krankjorume ideeën hebben en experimenten doen om te kijken of die ideeën ook kloppen. Slechts één onderzoeker heeft het geluk dat het idee ook ergens op slaat. Die zijn proef wijst dat dan ook uit. In de praktijk is dat helemaal niet zo zeker en ook als de proef goed is ingericht heeft deze geluksvogel geen 100% kans dat zijn proef slaagt, maar doorgaans slechts 80%. Maar dat negeren we even. Als alle onderzoekers akelig goed hun best doen om zo eerlijk mogelijk hun rare idee te testen, zullen er toch nog altijd circa 50 een significant resultaat vinden. In deze ideale situatie is nog steeds ongeveer 98% van de significante resultaten gewoon onzin.
Visexpedities
In de praktijk is het veel erger. De ideeën van de onderzoekers zijn niet zozeer krankjorum als wel heel erg wazig. Ze weten niet precies waarnaar ze op zoek zijn. Ze willen weten of sommige soorten voedsel een extra gunstig of extra nadelig effect op de gezondheid hebben. Dan vragen ze proefpersonen de oren van het hoofd over wat die zoal eten, en ze gaan voor tientallen gezondheids- of ziekte-effecten na hoe het verloopt met de betrokkenen. Of nog erger: ze gaan bepaalde zieken vragen wat die de afgelopen jaren gegeten en gedronken hebben. Of ze willen weten of mensen die in bepaalde maanden geboren zijn een bepaalde affiniteit met mensen die in dezelfde of andere maanden geboren zijn. In dat geval kun je dus een tabel maken van echtscheidingspercentage voor elk der 78 soorten echtparen (de ene partner in januari, de andere in januari, februari, maart etc.) en dan kijken of er soorten zijn die eruit springen. Bij sommige onderzoeken kun je op allerlei manieren subgroepen vormen, allemaal natuurlijk als je voorafgaand aan je onderzoek eigenlijk helemaal niet wist waar je naar op zoek bent. Een andere mogelijkheid is dat je verschillende manieren van statistiek bedrijven probeert.
Het effect van deze visexpedities in data is dat misschien wel de helft van de onderzoekers (ik ben voorzichtig) een ‘significant’ resultaat vindt dat wel ergens gepubliceerd kan worden. Dan hebben we dus 500 ‘significante’ resultaten, waarvan er maar één ook echt iets voorstelt, dus 99,8% van de significante resultaten is onzin. Voor dit voorbeeld maakt het helemaal niet uit of de onderzoekers allemaal de data zolang martelen totdat er een ‘resultaat’ komt of dat maar de helft daarmee succes boekt. Er staan zulke grote beloningen klaar voor significante resultaten en de straf voor het publiceren van iets dat later onzin blijkt, is zo gering dat we tegenwoordig de situatie hebben dat in allerlei wat zachtere wetenschappen vrijwel alle resultaten onzin zijn, zuiver omdat de onderzoekers allemaal hun lessen statistiek vergeten zijn en denken dat ‘significant’ inhoudt dat er slechts een klein kansje (1 op 20) is dat ze zich vergissen. Dit wordt verergerd doordat al het rekenwerk door de computer gedaan wordt en je als onderzoeker helemaal niet hoeft te snappen wat die computer doet.
Wat je op zijn best kunt zeggen, is dat je waarschijnlijk tamelijk kleine a priori kans met twintig is vermenigvuldigd, en alleen als je niet achteraf aan het knutselen bent geslagen met de gegevens.
Onderzoekers die medicijnen ontwikkelen hebben deels met hetzelfde te maken. Die proberen ook vele duizenden substanties uit. Bij opeenvolgende proeven in reageerbuizen, met proefdieren en met gezonde vrijwilligers, proberen ze zich een beeld te vormen van de activiteit van hun spul. In elk stadium valt er veel af. Pas op het laatst, dus als ze al in het bezit zijn van veel kennis, worden de kostbare proeven gedaan met echte zieken. Maar ook dan gaat de geschatte kans dat het spul werkzaam is op basis van wat al bekend is omhoog met een bescheiden factor, tenminste als de proef gunstig uitpakt. (Je moet eigenlijk met odds rekenen, maar bij deze uitleg met hele grove getallen is dat onbelangrijk.)
Onderzoekers die daarentegen homeopathie onderzoeken, verdoen hun tijd. De kans dat twee eeuwen natuurkundig, chemisch, farmacologisch en medisch onderzoek er helemaal naast zit, is praktisch nul. Een statistisch significante uitslag zal die kans met twintig vermenigvuldigen, en dat is nog steeds praktisch nul. Mocht de uitkomst heel erg significant zijn, dan moeten we de kans meewegen dat er ergens een of andere andere fout is gemaakt, gebrekkige blindering bijvoorbeeld. Een berucht Nederlands onderzoek naar homeopathie bij kalverdiarree kwam effectief op p=0,0000001, en ik trof ooit een obscuur Mexicaans artikel aan over homeopathie bij astma met p=0,00000000001.
De kans dat er een methodologische fout is gemaakt is, is dan aanzienlijk, althans oneindig veel malen groter dan de kans dat twee eeuwen wetenschap de prullenbak in moet. De homeopaten zien dat anders, die beweren dat hun rituele bereidingswijzen en onzinnige diagnostiek allerlei spirituele genezende krachten losmaken. Die krachten blijken zich echter niet aan de statistiek te willen houden want bij goed opgezette proeven komt er nooit wat van terecht.
Sir Edmund
De reden voor mij om dit allemaal nog eens te vertellen is dat de zaterdagbijlage van de Volkskrant, Sir Edmund, op 30 september 2017 een omvangrijk stuk van Martijn van Calmthout afdrukte over de ontevredenheid van wetenschappers met de zogeheten p-waarde. De drempel zou misschien van 0,05 naar 0,005 moeten. Ik betwijfel of dat de oplossing is. Wetenschappers moeten zich inhouden met p-hacking, ze moeten corrigeren voor meervoudig testen, en zouden eigenlijk alleen maar p-waarden moeten publiceren als ze van tevoren exact aangeven welke hypothese ze gaan testen en hoe ze dat gaan doen. Als het exploratief onderzoek is, dan moeten ze dat op zijn minst dat duidelijk zeggen.
Wat echter heel zorgelijk is, is dat Van Calmthout zelf het tot achtmaal toe heeft over ‘de kans op toeval’. Mijn beginsel ‘zo gauw je de frase “kans op toeval” of “due to chance” ziet staan, niet verder lezen’ is eigenlijk van toepassing.
Van Calmthout suggereert dat je een munt kunt testen door hem tienmaal op te gooien. Komt hij dan elke keer op kop, dan is de munt waarschijnlijk vals. Dat is onzin. De kans dat een willekeurige munt uit iemands portemonnee een grote voorkeur voor kop heeft is astronomisch klein. Hoe het zit met de kans dat je een corrupte goochelende scheidsrechter treft die op zo’n manier probeert te beïnvloeden wie er op welke helft speelt, dat weet ik niet. Als je moet beslissen: is dit stom toeval of is er wat met die munt, zal na een vluchtige controle of de munt niet krom is of aan beide kanten een kop heeft, de beslissing nog steeds zijn: stom toeval. Dan kun je net zo goed de vluchtige controle meteen doen, en het tienmaal opgooien overslaan.
Interessant genoeg zijn sommige munten waarvan de beeldenaar een beetje dik is niet helemaal ‘eerlijk’: als je ze op een heel gladde ondergrond, een glazen plaat bijvoorbeeld, snel om een verticale as laat tollen, vallen ze vaker met de kop naar beneden, en ‘munt’ boven. De gladde ondergrond is essentieel, want kleine oneffenheden werken als randomizer en misschien zijn er heel veel omwentelingen nodig voordat de lichte onbalans zijn werk kan doen. Op een ruwe ondergrond duurt het tollen wellicht niet lang genoeg. Rob Nanninga schreef in Parariteiten dat je onder gunstige omstandigheden negen van de tienmaal munt krijgt. Dat heb ik nooit gehaald. Het werkte vroeger met guldens met Juliana erop, en tegenwoordig met sommige euromunten (halve euro’s met koning Albert erop, naar ik meen).
Hoe slecht Van Calmthout in het vak zit, blijkt ook nog uit iets anders: de beroemde grondlegger van de wetenschappelijke statistiek, Sir Ronald Fisher, wordt betiteld met Robert Fischer (de schaakkampioen), en het feit dat hij drie jaar voor zijn dood naar Australië verhuisde is reden om hem tot ‘Brits-Australisch’ te bombarderen. Fisher begon zijn carrière op een landbouwkundig proefstation. Daar stop je zaden in de grond en je kijkt naar de opbrengst. In plaats van door te kweken met de 5 procent ‘beste’, kun je ook als criterium nemen dat de plant een ‘significant’ hogere opbrengst heeft. Maar doorkweken is toch wel wat anders dan meteen maar denken dat je een nieuwe bijzondere variëteit hebt, en daar een stuk over sturen naar een vakblad.