statistiek

Is er echt een probleem met excellente leerlingen op het VWO?

4 July 2012 by Pepijn van Erp 25 Comments

Een ANP-bericht met als kop ‘Kwart van slimme vwo’ers niet in 6 jaar klaar’ werd donderdag 14 juni op veel nieuwssites klakkeloos overgenomen (onder andere de Volkskrant, Trouw, Nu.nl). De argeloze lezer krijgt snel de indruk dat er een specifiek probleem is voor de slimmerds en dat ze het misschien nog wel slechter doen dan hun medeleerlingen die met een lagere CITO-score aan het VWO begonnen. De onderzoekers spreken namelijk over een ‘schrikbarend hoog’ percentage. Het klinkt in eerste instantie nogal verontrustend, maar ik had er niet meteen een beeld bij. Is dat kwart nou veel meer dan je mag verwachten? Is het echt zo dramatisch? Het is maar hoe je ernaar kijkt.

Merkwaardig genoeg trof ik in geen van de berichten een link of anderszins bruikbare verwijzing naar het echte onderzoek. Het knippen en plakken van ANP-berichten heeft natuurlijk ook weinig met journalistiek te maken, maar het valt toch steeds weer op dat er werkelijk geen enkele moeite wordt gedaan om zo’n bericht van wat achtergrond en nuance te voorzien. Geen van de sites die het bericht overnamen zal vermoedelijk het rapport zelf gezien hebben. Het kostte mij niet veel moeite om het te vinden: eerst even kijken bij het onderzoeksbureau dat het uitvoerde (GION): nee, niets. Dan maar bij de opdrachtgever, het ministerie van OCW. En daar staat het dan, een stevig rapport van 118 pagina’s.

Er staat erg veel in, maar mijn oog viel snel op tabel 3.16 (blz. 36):

De tabel behoeft volgens mij weinig toelichting. De CITO-scores van 549 en 550 werden in het onderzoek opgevat als ‘excellent’. Een score van 545 is wel zo’n beetje de laagste waarmee je het VWO in kunt gaan. Ik zie hier weinig verontrustends aan, de tabel beantwoordt wel aan de verwachting die ik vooraf had. Misschien dat de percentages van alle CITO-score groepen wat beter kunnen, maar van een verontrustend beeld specifiek voor de ‘excellente’ groepen lijkt mij geen sprake. Hoe komen de onderzoekers daar dan bij? Dat wordt duidelijk als je wat verder bladert in het rapport. Op blz. 93 geven ze hun definitie van onderpresteren:

Wij hebben de (normatieve) opvatting gehanteerd dat het niet na zes jaar hebben behaald van het VWO-diploma als criterium voor ‘ondermaats presteren’ kan gelden.

Ja, zo kan ik het ook! Élke uitval wordt geïnterpreteerd als onderpresteren. Het gaat bijna zo ver dat ook uitval door overlijden als onderpresteren wordt beschouwd. In de percentages wordt daar gelukkig wel voor gecorrigeerd en het zal ook wel voor bovenstaande tabel zijn gebeurd. Maar er is geen correctie voor andere oorzaken van vertraging zoals ziekte en familieomstandigheden. Niet dat dat iets zal uitmaken voor de verhouding tussen de uitval van excellente en minder excellente leerlingen, maar het nuanceert wel dat ‘kwart van de slimmerds’ die niet in zes jaar het VWO doorloopt. Je hebt zo nog geen idee wat het terrein is dat überhaupt gewonnen kan worden door veranderingen in het onderwijs.

Is er echt een probleem met excellente leerlingen op het VWO? 2 — Blindelings zoeken in data levert bijna altijd ‘wat’ op.

Vervolgens gaan de onderzoekers ijverig op zoek in de data om te kijken of er verschillen zijn te ontdekken tussen de groep excellente leerlingen die wel in zes jaar door het VWO fietst en de groep excellente leerlingen die ergens hapert. Dan wordt het wel snel data-vissen en moet je erg oppassen niet toevallige correlaties aan te treffen. We moeten ook bedenken dat alles is gebaseerd op een steekproef onder VWO’ers uit maar één startjaar, 1999. Ik zie niet al te veel slagen om de arm bij het vinden van de ‘oorzaken’ en de relevantie voor het onderwijs van nu.
Zo adviseren de onderzoekers om excellente leerlingen niet in gemengde HAVO/VWO klassen te laten beginnen, dat zou die excellente leerlingen 10% minder kans geven op een vlekkeloze doorstroom. Nou vraag ik me meteen af of die leerlingen niet om een heel goede reden gekozen hebben voor zo’n gemengde brugklas, maar de onderzoekers blijkbaar niet. Ook een gebrek aan ‘ordelijkheid’ wordt aangevoerd als een hindernis, maar dat kan net zo goed voor alle leerlingen gelden en niet specifiek voor de slimmerds (voor de gemiddelde groep wordt het niet als risicofactor gezien).

Kortom, het lijkt me weer een mooi staaltje naar de gewenste uitkomst toe redeneren. Natuurlijk moet er wat gedaan worden om te voorkomen dat onze toekomstige toppers onderweg een keertje struikelen. Anders blijft dat potje van 30 miljoen per jaar voor hoogbegaafde en excellente leerlingen ook maar ongebruikt op het ministerie staan …

Slecht rekenwerk aan rookverbod voorkomt 16.638 hartstilstanden

13 June 2012 by Pepijn van Erp 28 Comments

Fantastisch nieuws van de Universiteit Maastricht: door de invoering van het rookverbod op de werkplek begin 2004 zijn in heel Nederland meer dan 16.000 acute hartstilstanden voorkomen in de ruim 4 jaar die daarop volgden. Een hartstilstand leidt in 90 procent van de gevallen tot overlijden, bericht het persbericht ook nog om het resultaat in het juiste perspectief te zetten. Bij De Telegraaf kon iemand een rekenmachine bedienen en rekende uit dat er dus wel 14.000 levens zijn gered. Hoera!

Slecht rekenwerk aan rookverbod voorkomt 16.638 hartstilstanden 3 — Goed nieuws voor de anti-rooklobby

Ook het NOS journaal bracht het nieuws en liet de onderzoeker, professor Onno van Schayck, zelf aan het woord. Duidelijk in zijn nopjes met het mooie resultaat pleit hij voor het nu definitief en volledig doorvoeren van het rookverbod in de horeca. Want dat zal dan wel net zo’n mooie daling van het aantal hartstilstanden laten zien, moeten we denken. Zowel De Telegraaf als NOS Journaal nemen het juichverhaal uit Maastricht bijna klakkeloos over. Niet zo slim, want er blijkt nogal een luchtje aan dit onderzoek te zitten.

[Update 20 juni] Professor Van Schayck heeft een reactie gestuurd op deze blog, die staat onderaan het artikel.

Het onderzoek in Zuid-Limburg

Hoe onderzocht het team van prof. Van Schayck dat effect van het invoeren van het rookverbod op de werkplek? Het persbericht meldt daarover het volgende:

Voor dit onderzoek werd gebruik gemaakt van gegevens van de Regionale Ambulance Voorziening van de GGD Zuid-Limburg. In de analyses werden drie perioden onderscheiden: de periode voor invoering van de rookverboden (1 januari 2002 – 1 januari 2004), de periode waarin de rookvrije werkplek ingevoerd werd (1 januari 2004 – 1 juli 2008) en de periode waarin de rookvrije horeca van kracht was (1 juli 2008 – 1 mei 2010).

In de studie werden in totaal 2305 gevallen van acute hartstilstand geteld. In de periode vóór invoering van de rookverboden steeg het aantal met 24%. In de periode na invoering van de rookvrije werkplek daalde het aantal met 12%. Omgerekend in absolute aantallen en voor de hele Nederlandse bevolking impliceert deze afname dat er meer dan 16000 gevallen van acute hartstilstand voorkomen zijn in de hele periode tussen 2004 en 2008. Bijna 90% van de patiënten met een acute hartstilstand overlijden hieraan.

Er werden dus hartstilstanden (in jargon sudden circulatory arrest, afgekort SCA) geteld die via de ambulancedienst gemeld waren; de SCA’s in ziekenhuizen zijn niet meegenomen. Ook gaat het om een beperkt gebied, Zuid-Limburg, met ruim 600.000 inwoners en alleen om de groep mensen tussen 20 en 75 jaar oud. Op zich al redenen om vraagtekens te zetten bij de representativiteit van het onderzoek voor het hele land. Daarnaast is het bij dit soort onderzoeken altijd de vraag of er niet alleen maar een correlatie gevonden is zonder dat er sprake hoeft te zijn van een oorzakelijk verband.
Wetenschapsjournalist Maarten Keulemans vertrouwde het onderzoek niet helemaal en schreef er een uiterst kritische blog over op NWTonline (daar kun je ook het fragment uit het NOS journaal zien). Hij stelt een aantal zeer terechte vragen over het veronderstelde causale verband. Zo is er maar heel weinig bekend van SCA gevallen, niet eens of die zelf rookten, of vóór 2004 op een werkplek vertoefden waar gerookt werd. En als je over de hele periode kijkt die is bekeken, zie je trouwens helemaal geen daling. De cijfers in het onderzoek bevreemdden hem zeer en hij vroeg mij om er ook eens naar te kijken. Dat heb ik gedaan en ik ben er eerlijk gezegd nogal van geschrokken.

Hoe komen de onderzoekers aan die 16.000 hartstilstanden die voorkomen zouden zijn?

Onderstaande grafiek komt uit het artikel dat de onderzoekers publiceerden in het tijdschrift Heart onder de titel Effect of smoke-free legislation on the incidence of sudden circulatory arrest in the Netherlands (helaas achter een paywall).

Slecht rekenwerk aan rookverbod voorkomt 16.638 hartstilstanden 4 — Grafiek uit het artikel in Heart. Stijging van SCA gevallen in 2002 en 2003, na invoering van het rookverbod een significante daling.

De grijze curve geeft het aantal SCA casus aan per week in de gemeten populatie. De gekleurde ‘lijnen’ komen met wat rekenwerk uit een poissonregressie. Het zijn eigenlijk exponentiële krommen, die weer vermenigvuldigd zijn met de wisselende populatieomvang. Maar op deze schaal is het verschil met een rechte lijn niet echt zichtbaar, ik heb het verder dus ook maar over lijnen. Het komt er in feite op neer dat ze de beste manier hebben gevonden om een lijn met twee knikken door de chaotisch op en neer springende grijze curve te trekken. De plek van de twee knikken hadden ze van tevoren vastgelegd, namelijk precies op de data van invoer van de rookverboden op de werkplek (1/1/2004) en in de horeca (1/7/2008).
Welke conclusies trekken de auteurs nu in het artikel? In de eerste plaats geven ze aan dat dit model (de geknikte lijn) een goede benadering is. Ook vertellen ze dat de omslag van het groene naar blauwe gedeelte een significante daling inhoudt. De tweede omkering, van blauw naar oranje gedeelte is echter niet significant. Kortom: de invoering van het rookverbod op de werkplek had als gevolg een daling van SCA-incidentie en over de invoering van het andere verbod kunnen we niets zeggen op grond van deze cijfers. Ja, ja …

Maar het wordt nog wat erger als ze gaan becijferen hoeveel SCA’s zijn uitgebleven door invoering van het eerste rookverbod. Op basis van het gevonden model heb je een mooie formule gekregen, waarmee je voor elk moment in de bekeken periode een schatting kunt maken. En dat kun je ook doen als je net doet alsof er niets meer zou veranderen aan de trend ná 2003. En natuurlijk(?) kun je ook een andere populatiegrootte invoeren, bijvoorbeeld de hele Nederlands bevolking, in plaats van die ruim 400.000 mensen in Zuid-Limburg waarop de grafiek betrekking heeft. Gewoon de formule even invullen met de ruim 16 miljoen zielen die Nederland rijk is, gaf het resultaat van 16.638 vermeden SCA’s, het getal dat vervolgens prominent naar voren kwam in het persbericht en door prof. Van Schayck ook genoemd werd in het NOS Journaal (als ‘ruim 16.000’).

Rekenfoutje …

Toen ik het artikel gelezen had, probeerde ik het model zelf na te bootsen, gewoon even snel in een spreadsheetje. Dat lukt heel erg aardig, zelfs met de weinig precieze vermelding van de parameters van het model in het artikel. Die zijn vreemd genoeg maar met één cijfer nauwkeurig gegeven, maar de 16.638 is wel heel exact. Misschien dat bijvoorbeeld de -0,05% trend inderdaad heel precies is, maar dan had je verwacht dat er -0,050000% was opgeschreven. Maar goed, in de afbeelding iets verder naar beneden, heb ik de grafiek die ik uit mijn benadering kreeg (de blauwe kniklijn), gelegd over de grafiek uit het artikel. Je kunt zien dat het bijna precies klopt. Kleine verschillen kunnen er zijn, omdat ik niet precies weet welke populatiegrootte ze op elk punt hebben gebruikt; mijn interpolatie kan net anders zijn dan die van de onderzoekers.

Als ik in mijn model de ’16 miljoen Nederlanders’ stop (op basis van CBS-gegevens), kom ik uit op een aantal vermeden SCA’s van 16.504. Erg dicht in de buurt van die 16.638 uit het artikel dus. Meteen toen ik dat deed, besefte ik echter dat deze rekensom helemaal niet klopt. De grafiek van de onderzoekers slaat niet op alle personen, alleen op die met een leeftijd tussen 20 en 75 jaar! Het staat niet heel expliciet bij de grafiek, maar het is duidelijk als je kijkt naar de berekende modelwaarden per 100.000 personen en de getallen langs de y-as. De grafiekwaarden krijg je alleen uit het model als je rekent met de onderzoekspopulatie en niet als je de gehele populatie van Zuid-Limburg invoert.
Met beter vergelijkbare cijfers van de Nederlandse bevolking, kom je uit op bijna 12.000. Ik kon bij het CBS zo gauw alleen aantallen tussen 20 en 80 jaar vinden, dus eigenlijk is dit nog een te grote groep. De marges van de schatting zijn wat lastig te bepalen, maar een kort door de bocht benadering geeft dat de werkelijk waarde zou liggen tussen 2.700 en 39.000 (95% betrouwbaarheidsinterval). Het aantal voorkomen SCA’s is dus een heel stuk minder en het betrouwbaarheidsinterval is enorm. Maar nog steeds iets om blij over te zijn, toch?

… en een ongeloofwaardige voorspelling

Nu kun je ook nog gaan steggelen of Zuid-Limburg wel representatief is voor heel Nederland, en of je niet moet corrigeren voor bijvoorbeeld de slechtere gemiddelde gezondheid daar. Maar er is iets veel ergers aan de hand en dat is meteen duidelijk als je kijkt wat het doortrekken van die trend over 2002 en 2003 betekent. In de onderstaande grafiek heb ik die doorgetrokken als rode lijn.

Slecht rekenwerk aan rookverbod voorkomt 16.638 hartstilstanden 5 — De grafiek uit het artikel met daarover heen geplakt mijn model met blauwe lijn die het model van de onderzoekers benadert en de rode lijn die laat zien hoe het doortrekken van trend uitpakt. (klik voor grotere versie)

Als je de voorspellende waarde van die rode lijn serieus neemt, zou je de conclusie moeten trekken dat er zonder rookverbod in de periode van 2002 tot juli 2008 bijna een verdubbeling van het aantal SCA’s zou zijn geweest! De onderzoekers zien niet dat de steile trend over 2002 en 2003 nooit representatief kan zijn voor de ontwikkeling van vóór 2004. Ze noemen die trend aan het begin van het artikel zelf ‘klein, maar significant (p=0,044)‘. Een trend van +0,2% per week is echter een trend van bijna 11% per jaar! Dat noem ík niet klein. Het kan niet anders dan dat de helling van het eerste stuk in het model toevallig of door een nog onbekende oorzaak zo groot is.
Heel misschien ligt het aan de manier van modelleren. Ik zou bijvoorbeeld graag de trend van de afzonderlijke periodes zien, berekend zonder dat de lijnen op de schanierpunten aan elkaar vastzitten. Nu zijn de berekende trends namelijk niet onafhankelijk van elkaar. Het gebruiken van die 11% toename per jaar als voorspeller voor de incidentie 4,5 jaar later slaat in ieder geval nergens op naar mijn mening.

Sowieso zou je op grond van zo’n data-fitting exercitie met een krap aan significant resultaat op zijn best een aanwijzing hebben gevonden voor die omslag van de trend per 1 januari 2004. Om die te bevestigen zou je het in andere regio’s moeten toetsen. In dit geval lijkt het me echter voldoende om even te kijken naar de SCA incidentie van die eerste periode. Of beter nog: laten ze in Maastricht de gegevens van nog een paar jaar eerder opzoeken. Als die trend niet bevestigd kan worden, houdt het hele verhaal namelijk meteen op. Want alle significante resultaten en conclusies hangen samen met die extreme stijging.

Conclusie

Ik kan me verder helemaal vinden in de kritiek van Keulemans. Het onderzoek is zo opgezet dat vooraf al duidelijk had moeten zijn dat je eigenlijk nooit de conclusie had kunnen trekken dat het rookverbod effect heeft gehad. Dat effect is waarschijnlijk te klein om op te sporen in de vrij korte periode na invoer en met de relatief kleine aantallen die ze in dit onderzoek meegenomen hebben. Zeker als je naar een uitkomstwaarde kijkt die door heel veel factoren beïnvloed kan worden. De cijfermatige conclusies zijn mijns inziens volkomen onterecht. Een rekenfoutje kan vergeven worden, maar de gedachten achter de extrapolatie naar het landelijke getal getuigen van een bedroevend laag cijfermatig inzicht (tenzij het bewust is gedaan, natuurlijk).

Oh ja, voordat ik daarover lastig gevallen wordt: ik ben groot voorstander van de rookvrije werkplek en een rookvrije horeca. Gelukkig heb ik zelf altijd mogen genieten van een rookvrije werkplek, ook al ruim vóór 2004. En ten slotte: ik heb geen banden met de tabaksindustrie, hoewel ik niet kan uitsluiten dat mijn pensioenfonds daar wel in belegt.

[UPDATE 20 juni] Reactie van professor Van Schayck
Op maandag 18 juni jl. had ik telefonisch contact met prof. Van Schayck en na aanleiding van deze blog en het gesprek stelde hij voor met een reactie te komen, die staat hier integraal onder.

Wij willen graag inhoudelijk ingaan op de kritiek van Pepijn van Erp. Feitelijk heeft van Erp een 3-tal hoofdpunten van kritiek:

“Daarnaast is het bij dit soort onderzoeken altijd de vraag of er niet alleen maar een correlatie gevonden is zonder dat er sprake hoeft te zijn van een oorzakelijk verband….De onderzoekers zien niet dat de steile trend over 2002 en 2003 nooit representatief zou kunnen zijn voor de ontwikkeling van voor 2004.”

“Als ik in mijn model de ’16 miljoen Nederlanders’ stop, kom ik uit op een aantal vermeden SCA’s van 16.504. Erg dicht in de buurt van die 16.638 uit het artikel dus…..De grafiek van de onderzoekers slaat niet op alle personen, alleen op die met een leeftijd tussen 20 en 75 jaar!”

“Om dit bevestigen zou je in andere regio’s moeten toetsen…Of beter nog: laten ze in Maastricht de gegevens van nog een paar jaar eerder opzoeken.”

Ad 1. Wij hebben nooit gezegd dat het verband tussen de rookvrije werkplek en de daling van hartstilstanden door deze studie causaal bewezen is. Net als in elk ander onderzoek hebben wij van tevoren een hypothese opgesteld. Die luidde dat er zowel na 2004 als na 2008 een daling in de incidentietrend zou zijn, mede op basis van wat er in studies in het buitenland op dat moment al was aangetoond in het aantal ziekenhuisopnames voor hartinfarcten. Het studiedesign van onze studie is ook grotendeels gebaseerd op hoe andere studies dit aangepakt hebben.
Met het analyseren van onze data hebben we de eerste daling kunnen bevestigen, de tweede niet. De toename in de periode 2002-2004 kan door vele factoren verklaard worden die invloed hebben op acute hartstilstanden (denk aan: overgewicht, voeding, beweging, diabetes, hoge bloeddruk, hoog cholesterol, (mee)roken). Net zo min als dat we aanwijzingen hebben dat deze factoren voor 2002 sterk veranderd zijn, zijn er aanwijzingen dat die factoren (gunstig) veranderd zijn na 2004, behalve het (mee)roken. Door in de sensitiviteitsanalyses te schuiven met het moment van introductie van het rookverbod hebben we wel uitgesloten dat dit een toevallige bevinding is. Daarnaast is er gedurende de totale periode van ruim 9 jaar wekelijks gecorrigeerd voor die factoren waarvan we weten dat ze invloed hebben op acute hartstilstand (temperatuurschommelingen, verhoogde fijn stof concentraties in de lucht en griepepidemieën), zodat alle denkbare zorgvuldigheid in de analyse van de data betracht is voordat de studie gepubliceerd werd.
Omdat het geen gecontroleerde gerandomiseerde studie is, kunnen we inderdaad niet onomstotelijk aantonen dat de verandering in de trends door het rookverbod veroorzaakt is. In het licht van observaties in andere soortgelijke studies lijkt dit wel de meest waarschijnlijke verklaring. Het feit dat de trend significant veranderde, wijst er ook op dat het zeer onwaarschijnlijk is dat de observatie op toeval berust.
In 2010 werd een Meta-analyse gepubliceerd (Mackay e.a. Heart 2010;96:1525-30) van de belangrijkste studies op de effecten van een rookverbod op cardiovasculaire aandoeningen. Dit betrof een overzicht van 17 studies uit de VS, Europa en Australasia. Er zaten verschillende studies bij die gepubliceerd zijn in de meest vooraanstaande medische tijdschriften in de wereld zoals de New England Journal of Medicine, British Medical Journal en Circulation. Alle studies hadden een vergelijkbaar design als onze studie (voor-na vergelijk zonder controlegroep).
Bij enkele studies was men wel in staat om een geografische vergelijking te maken omdat het zorgsysteem in bijvoorbeeld verschillende staten in de VS vergelijkbaar is, maar de invoering van het rookverbod niet simultaan tot stand kwam. Die situatie was bij ons helaas niet aanwezig. De conclusie van de meta-analyse was dat er een overtuigend bewijs is dat de invoering van een rookverbod leidt tot een vermindering in optreden van acute coronaire eindpunten.

Ad 2. Dit door van Erp genoemde “rekenfoutje” berust waarschijnlijk op afrondingsverschillen. In onze berekeningen zijn de niet-afgeronde trendcijfers gebruikt, terwijl in het artikel de afgeronde trendcijfers vermeld worden. Terecht corrigeert van Erp ons dat we hadden moeten extrapoleren naar de inwoners in Nederland van tussen de 20-75 jaar. De nadruk die deze extrapolatie in de kritiek van van Erp krijgt staat overigens niet helemaal in verhouding tot de plaats die deze extrapolatie had in het artikel.
De analyse is gebaseerd op trend verschillen in incidenties en alleen die resultaten zijn gerapporteerd in het Abstract en de Results van het artikel. Omdat een verschil in trends van +0.20% naar -0.24% per week, een lastig te interpreteren gegeven is, is dit getal geëxtrapoleerd naar de Nederlandse bevolking en vanwege de beperkingen die dit met zich meebrengt alleen vermeld in de Discussion en juist niet in de Results of Abstract section.

Ad 3. Dit is natuurlijk een terechte opmerking. Weliswaar behoorde deze observatieperiode tot een van de langste observatieperiode van dit type studies ooit (zie gepubliceerde meta-analyse) en behoort de Ambulancedienstregio Zuid-Limburg tot de meest dichtbevolkte regio van Nederland, het is altijd beter om in groter gebied te kijken en over een langere periode te meten, niet alleen vanwege de representativiteit van het gebied maar ook omdat je cijfers betrouwbaarder worden. Het zijn vooral de financiële beperkingen die de omvang van een studie als deze bepalen.

Mede namens Dianne de Korte,

Onno van Schayck

Mijn reactie hierop heb ik in de commentaren gegeven.

(de titelafbeelding bevat een bewerkte foto van stock.xchng)

Testje: ben jij goed in het schatten van kansen?

18 April 2012 by Arnold Bronkhorst 37 Comments

Stel – je bent bang dat iemand een bom meeneemt aan boord van het vliegtuig. Nou ja, zo vaak komt dat niet voor, blijkt uit een klein onderzoek. Toch besluit je geen enkel risico te nemen. Uit je onderzoekje blijkt dat het nog nooit is voorgekomen dat er twee bommen aan boord van een vliegtuig zijn gevonden. Helpt het als je zelf een bom zou meenemen aan boord? Zit je dan veilig omdat twee bommen aan boord nog nooit is voorgekomen?

Het antwoord is natuurlijk dat het niet uitmaakt of je zelf wel of niet een bom meeneemt aan boord. Immers – beide gebeurtenissen zijn onafhankelijk van elkaar. De kans op een tweede bom aan boord blijft erg klein maar verandert niet door het zelf meenemen van een bom.

Dit type redeneringen is voor mensen erg lastig.

Wij zijn over het algemeen slecht met het schatten van kansen. Helemaal wanneer we in het dagelijkse leven te maken krijgen met toeval. Een vriend belt op terwijl je net aan hem dacht (typische maar onterechte reactie: dat kan geen toeval zijn), op een blauwe maandagochtend heb je alle verkeerslichten tegen of je wint tien keer achtereen met rock-scissors-paper. Het zijn dingen die gebeuren en waar je geen bijzondere betekenis aan kunt toekennen. Maar in het dagelijkse leven blijkt dit juist veel te gebeuren.

Een bekend voorbeeld waar onze problematiek met kansberekening mooi ten toon wordt gesteld is het driedeurenprobleem, in het Nederlands ook wel het Willem-Ruis probleem genoemd (naar de bekende spelpresentator op TV):

Je doet mee aan een spelshow en je hebt de keuze uit drie deuren. Achter 1 deur staat een mooie auto, achter de overige twee een geitje. Je kiest een deur. Vervolgens opent de gameshowhost een van de twee overgebleven deuren. Een geitje verschijnt. Willem Ruis stelt jouw daarop de vraag of je nog van deur wil wisselen. Wissel je van deur of blijf je bij je eerste keuze?

Ook al ken je hem, hij blijft lastig.

Hoe goed ben jij met cijfers en kansen? Op de website van columnist Hans van Maanen kwam ik een testje van vier vragen tegen. (link naar de vragen vragen, als dit niet werkt kun je naar de website van Hans van Maanen en dan naar het 5e bericht ‘gecijferd’). Stem met de voorwaarden in, geef antwoord op de vragen, vul een aantal achtergrondkenmerken in en vervolgens krijg je de uitslag. Je mag pen en potlood gebruiken, maar geen rekenmachine.

Update 18-04 – 15:00
Let op! De antwoorden op enkele van bovenstaande vragen of testjes worden in de commentaren hieronder besproken. Pas dus op voor ‘spoilers’.

Illustratie voorpagina: het driedeurenprobleem (wikipedia).

Biggenstudie krijgt prijs: homeopaten blij met dode mus?

4 April 2012 by Pepijn van Erp 28 Comments

De International Academy of Classical Homeopathy (IACH) heeft de biggenstudie van Irene Camerlink en Liesbeth Ellinger gekozen tot beste studie gepubliceerd in een peer-reviewed tijdschrift. Dit heugelijke nieuws las ik op de site van de Koninklijke Vereniging Homeopathie Nederland. De studie is al eerder terloops ter sprake gekomen op Kloptdatwel.nl, maar nog niet uitgebreid besproken. De uitverkiezing tot het beste artikel op het gebied van homeopathie door het instituut van Vithoulkas zelf, is aanleiding om er toch even nader naar te kijken. Eventjes dan.

Biggenstudie krijgt prijs: homeopaten blij met dode mus? 7 — foto van jref.org

George Vithoulkas is namelijk een heel grote meneer in homeopathische kringen en onder andere winnaar van een Right Livelihood Award, de ‘alternatieve Nobelprijs’. En het is dus niet zo vreemd dat het winnen van de IACH Research Award door de aanhangers van homeopathie als een belangrijke erkenning wordt gezien. Vithoulkas durfde het ook aan om in te gaan op de ‘1 million $ Challenge’ van James Randi. Maar uiteindelijk kwam het niet tot een echte test en de heren geven elkaar natuurlijk de schuld van het niet doorgaan (JREF, Vithoulkas).

In 1995 stichtte Vithoulkas de International Academy of Classical Homeopathy op Alinissos in Griekenland. Het is vooral een zomerschool waar homeopaten van over de hele wereld bijgeschoold worden. Volgens de website gaat het al om 9.000 homeopaten uit 32 landen.

De biggenstudie
Wat behelst die studie ook al weer? Irene Camerlink deed het onderzoek in het kader van een minor scriptie bij de Leerstoelgroep Biologische Landbouwsystemen aan de Universiteit Wageningen. Het artikel verscheen in het blad Homeopathy onder de titel Homeopathy as replacement to antibiotics in the case of Escherichia coli diarrhoea in neonatal piglets (hier vrij toegankelijk) en er is ook een Nederlandse versie.

Biggenstudie krijgt prijs: homeopaten blij met dode mus? 8 — foto Flickr (woodleywonderworks)

De proef werd gedaan met 52 zeugen, die in twee gelijke groepen verdeeld werden, waarbij de ene groep een placebo kreeg en de andere groep een Coli 30K oplossing. Dat is weer zo’n bizar hoog aantal keer verdund mengseltje dat er eigenlijk geen moleculen van de opgeloste stoffen in aanwezig kunnen zijn. Daar deed Camerlink overigens ook niet geheimzinnig over in een e-mail aan mij. Zij geeft ruiterlijk toe dat een wetenschappelijke verklaring voor de veronderstelde werking nog niet voorhanden is. Zij verwacht die echter wel snel.

De vloeistoffen werden twee keer per week in de vulva’s van de zeugen gesprayd gedurende de laatste vier weken van de dracht. Hoogstwaarschijnlijk is de blindering weer met de ‘Wageningse methode‘ gebeurd: de zeugen kregen labeltje ‘A’ of ‘B’ en werden dan met spuitje ‘A’ of ‘B’ besproeid.
Maar dat is helemaal geen goede blinderingsmethode. In feite test je in het onderzoek dan maar twee ‘deelnemers’ (N=2). Uit het artikel komt sterk naar voren dat gedurende het onderzoek bekend was of een zeug in groep ‘A’ of ‘B’ hoorde. Om het goed te doen moet je 52 verschillende spuitbusjes maken, die ofwel placebo ofwel verum bevatten. Het is wat meer gedoe, maar wel essentieel.

Uiteindelijk werd er gekeken hoeveel van de biggetjes, die de zeugen kregen, diarree kregen door E.coli-besmetting. Tenminste, dat zou je denken. Maar als je goed leest, zie je dat het vaststellen van de E.coli geschiedde door visuele inspectie van de uitwerpselen. Er werd slechts één sample ingestuurd naar een laboratorium om op E.coli te testen, het betrof een mengsel van de uitwerpselen uit drie verschillende worpen. En daar kwam niets uit. We weten dus niet eens of er sprake is geweest van diarree door E.coli! En eigenlijk kunnen we nu wel ophouden met verder zoeken naar methodologische fouten in het onderzoek, hoewel je er zo een flinke lijst van kunt opstellen.

Het onderzoek als zodanig vond ik daarom ook helemaal niet zo interessant, maar de aandacht van homeopathie aanhangers ervoor wel. Die voeren deze studie namelijk op als echt wetenschappelijk bewijs voor de werkzaamheid van homeopathie, want het zou immers gaan om een keurig uitgevoerde Randomized Controlled Trial (RCT) met een niet te ontkennen significant positief resultaat. Voor mij aanleiding om die algemene claim (een enkel positief significant resultaat uit RCT is ‘bewijs’) onderuit te halen in mijn artikel “RCT, homeopathie en biggetjes: ‘The Good, the Bad & the Ugly’?“

Het is overigens wel grappig te lezen wat er als resultaat van de studie vermeld wordt in het nieuwsbericht op de site van de KVHN:

Resultaat was dat van de groep aan wie het echte homeopathische geneesmiddel werd toegediend slechts 10 van de 265 biggetjes diarree kregen in vergelijking tot 63 van de biggen uit de even grote placebogroep. Dit houdt een significantie in van P<0,0001 op biggenniveau, en van P<0,05 op zeugenniveau. Heel duidelijk positief voor het homeopathisch geneesmiddel.

Die vetgemaakte zinssnede is de correcte statistische conclusie als je toch wil gaan rekenen met de resultaten die niet voorstellen wat de onderzoekers suggereren. Maar deze uitkomstwaarde is nergens in het oorspronkelijke artikel te vinden! Daar wordt alleen gewezen op de indrukwekkende score op biggenniveau. En dat cijfer is volkomen verkeerd berekend, want houdt geen rekening met het feit dat de kans op besmetting binnen een worp biggen heel groot is. Je kunt het al dan niet waarnemen van diarree bij de individuele biggen niet als onafhankelijke uitkomsten beschouwen. Dit merkte ik op in een commentaar op een artikel hier op Kloptdatwel, waarop Jan Willem Nienhuys voorrekende hoe de p-waarde op zeugenniveau is. Inderdaad significant, maar het is wel een grensgeval: was er één zeug in de verumgroep meer geweest met diarree in haar worp, was dat al niet meer het geval geweest.

Tsja, dit is dus volgens de International Academy of Classical Homeopathy het beste onderzoek dat er de laatste tijd verschenen is op het gebied van homeopathie. Of in ieder geval het beste van die artikelen die ingestuurd waren voor de IACH Research Award. Hoeveel dat er waren (en welke) weet ik niet. Ook niet wie er in de jury zaten en of er een juryrapport is. Die vragen stelde ik aan het instituut per e-mail en een week later kreeg ik als antwoord dat ze die informatie in dezer dagen op de website plaatsen, maar ik heb nog niets gezien daarvan.

foto titelpagina Flickr:woodleywonderworks

Genieten van statistiek

31 March 2012 by Maarten Koller 2 Comments

Hieronder staat de documentaire ‘The Joy of Stats’. Omdat statistiek belangrijk is en je er best van kan genieten.

Met dank aan Jan Verhoeven voor de tip.

Gert Jan van 't Land
on Leestip – RFK Jr. The Fall and Rise
Ik heb het stukje op 25 april 2026 een beetje aangepast. Ik dacht na het schrijven dat de claims van
Hans1263
on Leestip – RFK Jr. The Fall and Rise
De verwoestende sporen die dergelijke gebruiken nalaten zijn duidelijk in zijn gezicht te zien. En in zijn "gedachtengoed" te bespeuren.
Hans1263
on Leestip – RFK Jr. The Fall and Rise
@Klaas van Dijk Er staan veel lovende reacties onder. Een van die verwarde geesten durft haar zelfs te vergelijken met
Klaas van Dijk
on Leestip – RFK Jr. The Fall and Rise
Het gaat om dit gesprek tussen de Radboud UMC arts/onderzoeker Jona Walk en Ad Verbrugge https://youtu.be/SZCZWg7TnHw?si=59jfADB36IbInTl5 He
Renate1
on Leestip – RFK Jr. The Fall and Rise
Ik denk dat ik weet wie u bedoeld. Hij komt uit een bekende familie en had ooit de gewoonte om