Paraproof.nl is een recent opgerichte website waarop voorspellingen kunnen worden bijgehouden van mediums, helderzienden en andere waarzeggers.
Iedereen kan via een gemakkelijk formulier een voorspelling toevoegen bij de respectievelijke voorspeller. Vervolgens is het afwachten of de voorspelling wel of niet uitkomt. Naargelang het aantal succesvolle voorspellingen krijgt de voorspeller een score en zo kan gemakkelijk gezocht worden naar de beste profeet: Octopus Paul! (8.31/10).
Tenminste, in de categorie amateurs; onder de ‘professionelen’ is het ene Linda Bolman met een score van 5.88/10.
Opmerkelijk is de door Paraproof zogenoemde ‘vaagheidscoëfficiënt’:
De vaagheidscoëfficiënt geeft de algemene vaagheid van de voorspellingen van het medium aan. Hoe dichter bij 1, hoe vager de voorspellingen die het medium heeft gedaan. Paragnosten die concrete voorspellingen plaatsen, kunnen een vaagheidscoëfficiënt van rond de 0 hebben. De vaagheidscoëfficiënt is van kleine invloed op de score.
Interessant is dat Linda een vaagheidscoëfficiënt heeft van 0.4 en ook Octopus Paul, met toch vrij concrete voetbalvoorspellingen zoals “Duitsland wint van Australië”, komt niet verder dan een vaagheidscoëfficiënt van 0.26. Ik vraag me af hoe voorspellingen met een coëfficiënt van nul eruit zien. Waarschijnlijk had Octopus Paul dan ook nog eens het aantal goals, de namen van de makers ervan en in welke minuut dit zou gebeuren moeten noemen. De exacte criteria kan ik helaas niet vinden.
Wat ook opgemerkt moet worden is dat sinds zijn overlijden, Paul geen voorspellingen meer heeft gedaan, (tenminste, niemand heeft nog een nieuwe voorspelling voor hem toegevoegd, mogelijk doorgekregen van gene zijde via een dierenfluisteraar/medium). Dat betekent ook dat het fenomeen ‘regressie naar het gemiddelde’ niet meer plaats zal vinden en zijn hoge score zal blijven staan.
Regressie naar het gemiddelde houdt in dat een volgende meting (voorspelling) meer zal neigen naar een gemiddelde score. Stel dat ik met een zuivere munt gooi dan kan het best zijn dat ik 5 keer achter elkaar kop gooi, maar als ik een oneindig keer zou gooien dan zou ik uitkomen op 50% kop en 50% munt. Het zou niet kloppen om nu te zeggen dat, op basis van de eerste 5 keer, ik in staat ben altijd kop te gooien. Als het gaat om kop scoren sta ik nu op 100%. Maar als ik vaker gooi dan zal mijn score uiteindelijk rond de 50% zal komen te liggen.
Hoge evenals lage scores zullen dus steeds meer afgevlakt worden. Tenminste, tenzij er een echte toekomstvoorspeller tussen zit natuurlijk. Ik zou het fantastisch vinden als blijkt dat er iemand consequent en niet al te vaag, juiste voorspellingen kan blijven doen. Ik mag hopen dat diegene hoger scoort dan een magere zes min.
Paraproof.nl is een initiatief van Grenswetenschap.nl.
Jan Willem Nienhuys says
Regressie naar het gemiddelde wordt doorgaans maar slecht begrepen. Het treedt op als twee statistische verschijnselen geen perfect verband hebben. Het eenvoudigste voorbeeld is natuurlijk als ze in het geheel geen verband hebben, zoals: het resultaat van 5 maal kop of munt gooien en het resultaat van nog eens 5 maal kop of munt gooien.
Een voorbeeld van een verband, maar niet een perfect verband, is de lengte van laten we zeggen de rechterarm en de rechtervoet van mensen. Mensen met lange armen hebben vaak ook grotere voeten. Als je de mensen nu indeelt naar armlengte en in elke armlengteklasse de gemiddelde voetlengte bepaalt, dan kun je de resultaten in grafiek brengen. Statistici vinden het fijn om de schaal van de grafiek zo te kiezen dat de maateenheid op de horizontale en verticale as gelijk is aan de spreiding. Dus als je op papier horizontaal de armlengte uitzet, dan zorg je dat daar 1 cm overeenstemt met de spreiding in armlengte in de bevolkingsgroep die je onderzoekt. De voetlengte zet je dan verticaal uit, en je zorgt dat in verticale richting 1 cm overeenstemt met de spreiding in de voetlengte. De helling van de lijn is dan wat met een geleerd woord de correlatiecoëfficiënt genoemd wordt. De lijn zelf heet de regressielijn. De punten waardoor de lijn getrokken is, stellen de armlengteklassen voor.
Je kunt ook de individuele hand-voetparen op je grafiek aangeven. Dan krijg je een uitgerekte puntenwolk waarvan de symmetrieas een hoek van 45 graden met de horizontale en verticale as maakt. Als je de puntenwolk vervangt door een ellips die aangeeft waar de punten ongeveer liggen, dan zal de regressielijn die ellips snijden in de punten waar de raaklijn verticaal staat. De regressielijn is dus niet de lange symmetrieas van de puntenwolk.
Je kunt ook hand en voet verwisselen, dan krijg je ongeveer hetzelfde plaatje. Als je de schalen horizontaal en verticaal niet aanpast zoals ik net heb voorgesteld, wordt het een tikje ingewikkelder, maar er verandert niets wezenlijks!
Als de regressielijn horizontaal verloopt en de correlatiecoëfficiënt dus nul is, dan is er helemaal geen (eenvoudig) verband.
Als je in plaats van arm en voet de linker- en rechterarm neemt, dan zullen die vrijwel (maar niet helemaal) gelijk zijn voor elke persoon afzonderlijk, dus dan zal de puntenwolk heel dicht tegen de regressielijn liggen, en de correlatiecoëfficiënt zal dicht bij 1 liggen.
De correlatiecoëfficiënt kan ook 1 zijn. Dan ligt de puntenwolk óp de regressielijn. Dat gebeurt maar zelden. Het kan natuurlijk wel, namelijk als je bijvoorbeeld de lengte van iemand in centimeters vergelijk met de lengte in meters. Maar zo gauw als je twee afzonderlijke metingen vergelijkt, zul je al te maken krijgen met een meetfout.
Toen lang geleden (1889) Galton iets dergelijks deed voor de lengte van vaders en zonen, merkte hij dat de zonen qua lengte leken op hun vaders maar dat de overeenkomst niet perfect was. Hij meende dat kinderen van heel erg lange en heel erg korte vaders de neiging hadden qua lengte wat terug te gaan naar het gemiddelde. Hij had daar een theorie over. Ik ga daar nu niet op in, want hij deed het niet precies zo, en maakte het daardoor wat ingewikkelder. Hij realiseerde zich in elk geval niet dat als je de rol van zonen en vaders verwisselt, je óók regressie naar het gemiddelde krijgt: als je zonen indeelt naar lengte, en dan voor elke lengteklasse de gemiddelde vaderlengte berekent, krijg je ook dat heel lage en heel korte zonen gemiddeld wat minder extreme vaders hebben. Je kunt hetzelfde trouwens met allerlei familierelaties doen. Zonen en moeders, broers en zussen en ga zo maar door (zelfs echtgenoten onderling). De verklaring van dit verschijnsel heeft natuurlijk gedeeltelijk met genetica te maken, maar nu hebben we het alleen over het rekenkundige verschijnsel zelf.
Veel voorbeelden van regressie naar het gemiddelde krijg je in de situatie dat je iets hebt dat wel volgens het toeval varieert, maar niet zo snel, bijvoorbeeld het weer, of iemands gezondheid of beurskoersen, of menselijke topprestaties (bijvoorbeeld een proefwerkcijfer of een testresultaat of een sportprestatie). Dan is er een minder dan perfect verband tussen de waarde op een bepaald tijdstip en die een tijdje later. Dat is bij medische onderzoekingen naar de werking van behandelingen van belang. Patiënten komen bij de dokter als ze zich niet goed voelen en denken: zo kan het niet langer. Gewoon door de spontane fluctuatie van klachten zullen die zich na een tijdje doorgaans gemiddeld wat beter voelen.
Regressie naar het gemiddelde is geen mysterieuze kracht die zorgt dat een gemiddelde hersteld wordt, en soort van magisch zelfhelend vermogen van het gemiddelde. Nee, het is een rekenkundige weergave van het gegeven dat twee zaken (beide met eigen gemiddelde en spreiding) die statistisch gesproken een verband hebben, vrijwel nooit een perfect verband hebben (zodat als je het ene weet het andere ook exact bekend is), en vaak zelfs verband nul!
Regressie naar het gemiddelde kan mensen die er niet op bedacht zijn lelijk parten spelen. Een bekend voorbeeld is een vlieginstructeur die tot de overtuiging kwam dat loftuitingen voor de leerling na een hele goede landing contraproductief werkten. De leerling deed het immers daarna meestal minder goed. Daarentegen werkten reprimandes en andere ‘maatregelen’ na slechte landingen wel (dacht de instructeur). In werkelijkheid hingen de prestaties van de pupillen voornamelijk van het toeval af.
Een ander voorbeeld wordt gevormd door beleidsmaatregelen die genomen worden als er ergens veel ongelukken gebeuren. Na de maatregelen blijken de ongelukken vaak wonder boven wonder te verminderen. Een variatie op dit idee is de illusie van effectiviteit van religieuze activiteiten bij langdurig slecht weer of droogte of zo, of bijgelovige praktijken van sportlieden. Dat is eigenlijk hetzelfde als wat zojuist genoemd is bij de medische onderzoekingen.
Hierboven schreef ik ‘(eenvoudig) verband’. Dat is wel essentieel. Stel je even een of ander statistisch verschijnsel x voor dat in getallen uitgedrukt alle waarden tussen min één en plus een gemiddeld even vaak aanneemt. Laat een tweede verschijnsel y zo zijn dat het altijd in getallen uitgedrukt precies driemaal het kwadraat van x is, min 1. Als je dan aan het rekenen slaat, zullen x en y correlatie nul blijken hebben. Een eenvoudiger voorbeeld is misschien als het verband tusen x en y zo is dat het paar (x,y) – hier zijn natuurlijk de getalswaarden van x en y bedoeld – altijd op een cirkel ligt. Alle bovenstaande theorie slaat alleen op verbanden van het type: y is een vast aantal keren x plus mogelijk een of andere vaste constante, daarom is de theorie als het ware blind voor niet-lineaire verbanden.
Daarom is correlatie maar een grof middel om verbanden te vinden. Om even bij het probleem van lengte van vader en zoon te blijven: dat verband is gedeeltelijk genetisch maar de genen werken niet doordat ze allemaal een eigen onafhankelijk bijdragetje hebben en dat het individu letterlijk de optelsom is van zijn genen.
Als natuurkundigen een stel gegevens hebben die als punten in een grafiek kunnen worden weergegeven, proberen ze daar vaak de ‘beste’ rechte lijn door te trekken. In eerste instantie proberen ze dan te zorgen dat de som van de kwadraten van alle verticale afstanden van de punten tot de lijn zo klein mogelijk is. Deze techniek is ruim twee eeuwen geleden door Gauss en Legendre ontwikkeld en staat bekend als de kleinstekwadratenmethode. Rekenkundig gesproken is die gelijkwaardig met de bepaling van de regressielijn (als je weet hoe het moet, is het nog een flauw trucje ook). Gauss en Legendre waren voornamelijk geïnteresseerd in de optimale verwerking van heel veel sterrenkundige waarnemingen. Pas een eeuw later kwamen de toepassingen in de biologie en psychologie en dergelijke.
Cryptocheilus says
Je krijgt die docent niet uit die Nienhuys. Voor wat dat betreft owned hij de hele wereld.
Geruchten gaan echter dat hij zwaar aan de verdovende middelen is.
Jan Willem Nienhuys says
Aren’t all of us Dutch heavily intoxicated? However, that post was written by someone who later confessed he had been drunk. At 8:35 AM local time in the USA.
Magnolia says
dat is een goeie. heeft iemand jomanda al opgegeven – oeps ! dubbelzinnig 😀 – met de voorspelling van een tsunami in noord holland in augustus 2011 ? bewaar dat filmpje !