In de hieronder besproken ’publicatie’ wordt een statistisch significante correlatie aangetoond tussen de verkoop van biologisch voedsel en het aantal autismediagnoses. Het blijkt – achteraf – bedoeld te zijn als een voorbeeld van hoe een pseudowetenschapper een leugen kan verspreiden indien bij gevonden correlatie eventuele causaliteit niet nader onderzocht wordt. In de tekst bij de grafiek verklapt de moderator van de citerende site BoingBoing meteen al de doelstelling van de auteur: hoe kun je eenvoudig een leugen poneren en dat ook nog statistisch onderbouwen. En passant noemt hij een soortgelijk geval: de relatie tussen preventieve inenting van kinderen en autisme.
Via een tweet kwam ik terecht bij deze Reddit-post (zie plaatje hieronder) van de hand van Redditor Jasonp55. Hij toont een significant verband aan tussen 2 variabelen: de in de USA toegenomen verkoop van biologisch voedsel (linker Y-as) en het aantal autismediagnoses (rechter Y-as) in de jaren 1997 t/m 2009 (X-as).
E.e.a. wordt in de grafiek gepresenteerd als twee trends in de genoemde jaren en een correlatiecoëfficiënt van nagenoeg 1,0 tussen (dat nemen we aan) “Organic Food Sales” en “individuals diagnosed”. Overigens een ongebruikelijke manier van presenteren: je zou toch een correlatiediagram en evt. een regressielijn verwachten met als onafhankelijk variabele de sales op de x-as en de afhankelijk variabele individuals diagnosed op de y-as.
Het vraagteken achter de titel van de grafiek, de begeleidende tekst eindigend met puntje puntje puntje bij het bericht geven inzicht in de bedoeling van het artikel: “I was practicing GraphPad and I think I may have discovered the ‘real’ cause of autism… “
Dat het inderdaad een grap betreft blijkt uit een antwoord van dezelfde Jasonp55 op een gerelateerde post:
“It does imply association, but only if there’s a reasonable underlying hypothesis. For example, if I find a strong correlation between the dose of a drug and the effect of a drug, that makes sense. In my case, my chart is bunk because I don’t have any reasonable hypothesis to explain my results. All I did was data mine until I found an interesting pattern. My chart is extremely misleading, but that’s the point: pseudo-scientists do this all the time.”
Jan Willem Nienhuys says
Dit is een voorbeeld van twee variablen die allebei in de tijd stijgen (of dalen). Het klassieke voorbeeld is de prijzen van rum in Jamaica en salarissen van dominees in Massachussetts; een ander klassiek voorbeeld is geboortecijfers en ooievaarsnesten in Hamburg.
Minder bekend: de hoeveelheid straatverlichting correleert positief met criminaliteit (in de VS als je over geschikte peridoe van 40 jaar kijkt), r=0.95
Fraaiste voorbeeld: in de periode 1924-1937 steeg het aantal opnames per 100.000 Britten in zwakzinnigeninrichtingen nogal. De aantallen correleerden goed met het aantal afgegeven luistervergunningen voor de radio. Ze correleerden nóg beter met het aantal voorletters in de voornaam van de zittende Amerikaanse president.
In de gezondheidssfeer werd voor de ontdekking van een vaccin tegen polio een correlatie ontdekt tussen frisdrankgebruik en polio. De verklaring was in dat geval dat beide samenhingen met het weer. Bij warm weer meer besmettingen (zwemwater was wel eens een factor in de transmissie).
frankeren says
[ de hoeveelheid straatverlichting correleert positief met criminaliteit ]
Even voor de zekerheid: meer criminaliteit zorgt voor meer straatverlichting, of andersom?
Jan Willem Nienhuys says
Het ging allebei omhoog in die periode. Of er ook maar ergens het langer aanlaten van de straatverlichting of het neerzetten van lantaarnpalen mede beïnvloed is door de wens de toename van de criminaliteit (bijv. het in bezit hebben van marihuana of winkeldiefstal of rijden onder invloed) te stoppen, weet ik niet.
frankeren says
Er wordt wel gezegd dat hogere welvaart (of verschil in welvaart) leidt tot hogere criminaliteit.
En hogere welvaart leidt ook tot meer straatverlichting.
Iemand zei eens, betere wegverlichting, met name buiten de bebouwde kom, leidt tot meer overvallen. Door wegverlichting ziet de overvaller reeds lang zijn slachtoffer aankomen terwijl hij zich nog steeds kan verstoppen. Bovendien kan de overvaller zien dat er in de wijde omtrek geen Bromsnor loopt.
Christian Van Den Berge says
Kan niet genoeg benadrukt worden; Correlatie is NIET hetzelfde als causaal verband.. wordt nog altijd te vaak zo gezien.
Meer leuke ‘klassiekers’ is het aantal piraten en global warming (fight global warming, become a pirate) en ijsjes verkoop en het aantal verdrinkingen.
Iedereen kan tegenwoordig trouwens los gaan en zelf deze verbanden zoeken met Google Correlate http://www.google.com/trends/correlate
Correlation is NOT causality
Jan Willem Nienhuys says
In dit geval en andere soortgelijke gevallen is er eigenlijk helemaal geen correlatie, of een foute berekening.
Laat ik dat uitleggen. Je hebet te maken met fenomenen a en b, die zich beide op allerleis plaatsen en tijden kunnen voordoen, en die in getallen uitgedrukt waarden A en B hebben.
Je kunt dan nagaan hoe goed het “model”
A = c maal B plus ruis
klopt.
Je kunt ook proberen of het model
B = d maal A plus ruis
Dat komt op hetzelfde neer (met d = 1/d). Voor de berekening – die ik niet ga voordoen – begin je met een heleboel paren (A,B), dat zijn de waarnemingsgegevens. Je berekening geeft niet 1 enkele waarde voor c, maar een schatting voor c met een foutenmarge die afhangt van het aantal gegevens en wat er bekend (vaak ook maar een schatting) is over de intrinsieke ruis in de A- en B-gegevens. Als er helemaal geen verband is vind je:
A = nul maal B plus ruis
B = nul maal A plus ruis.
De c en de d zijn niet de correlatiecoëfficiënten. De correlatiecoëfficiënt r is veeleer een maat
voor de verhouding tussen de oorspronkelijke ruis in de gegevens en de hoeveelheid ‘verklaarde’ ruis. Dus bij r=0 is er niks “verklaard”, maar bij r=1 (of -1) is er geen ruis meer over. Als je denkt dat dat onmogelijk is, moet je even denken aan A= een nauwkeurige meting van bijvoorbeeld lengte of gewicht aan een of ander fysisch object, en B = idem maar even later.
Maar in veel gevallen, en in het bijzonder de besproken gevallen is deze berekening onzinning. Het meer voor de hand liggende model is dan:
A = c maal B + d maal T + ruis
of
B = e maal A + f maal T + ruis.
waarin T de tijd is, of een geschikt gekozen functie van de tijd. Elk paar (A,B) uit je waarnemingenverzameling heeft een eigen T. Ook hier krijg je schattingen. Om te beoordelen of de schatting serieus van 0 afwijkt moet je nóg iets in aanmerking nemen, namelijk hoe vaak je hebt zitten proberen of er iets interessants uitkwam, of beter: hoe vaak zou je bereid zijn gewest te gaan zitten proberen tot dat je iets kreeg of het definitief opgaf.
Bij het voorbeeld van de Britse zwakzinnigen is het duidelijk dat er flink gezocht moet zijn om zo’n idioot verband te vinden.
Als iemand door slim proberen de gewoonte heeft om 1000 mogelijkheden voor een of ander model van wat dan ook te proberen, kun je gevoeglijk al diens resultaten met p=0,001 als waarschijnlijk frauduleus terzijde leggen, om maar te zwijgen van ‘onomstotelijke bewijzen’ met p=0,049 .
Nou is zoeken naar opvallende verbanden geen fraude, maar als je denkt dat je iets hebt, moet je een en ander met verse gegevens controleren en wel zo dat je aannemelijk kunt maken dat je niet stiekem toch weer 10 proeven doet waarvan je alleen maar de gunstigste laat zien.
Overigens is een van de kritieken van ‘klimaatsceptici’ juist dat de realiteit van het verband tussen CO2 en globale temperatuur ook uit een dergelijk model komen: beide gingen omhoog, presto! Ik versimpel het een beetje, maar de verfijningen waren het resultaat van gericht zoeken naar modellen die achteraf de tijdreeksen konden verklaren. De klimaatsceptici zijn ook niet vies van dergelijke bedenkelijke methoden. Ze betogen namelijk dat “de laatste tijd” de globale temperatuur niet meer stijgt, en doen dat door heel slim een recente uitschieter naar boven als referentiepunt te nemen voor het begin van die “laatste tijd”. Een van de dingen die ik zelf niet snap is dat er in de modellen een tijdvertraging zit van vele jaren.
Het idee van “CO2 warmt op” is namelijk dat de CO2 de uitstraling van warmte hindert. Maar zou je niet denken dat het effect van meer CO2 zich dan niet ogenblikkelijk zou voordoen? Als er ‘s nachts geen wolken zijn, dus meer uitstraling, merk je diezelfde nacht nogdat het flink afkoelt. Toch stopt men zonder enige fysische onderbouwing een vertraging van jaren in de modellen met volgens mij geen andere motivering dan dat het model dan beter uitkomt.
Misschien heb ik het mis hoor, maar als iemand me kan uitleggen wat de natuurkunde is van die vertraging van jaren (of zit die tegenwoordig niet meer in de modellen?) dan houd ik me aanbevolen.
Anthony de Vries says
Het mooiste in dit verband is de data van de ijskernboringen. Die ijskernboringen worden steevast als “bewijs” gezien dat meer CO2 een hogere temperatuur tot gevolg heeft…
Inderdaad laten die boringen een enorme goede correlatie zien tussen temperatuur en CO2 concentratie… Met echter een verschuiving in de tijd van 400 jaar !! En wel dusdanig dat de CO2 concentratie 400 jaar *achter* loopt op de temperatuur, zowel bij stijging als bij daling.
Een dergelijke tijdvertraging levert informatie op over de causaliteit… en wel dat wanneer er een causaal verband is, dan datgene wat eerder veranderd, de oorzaak moet zijn van datgene wat later veranderd. (Logisch…) Maar dat betekent dus wel dat die boringen aantonen dat de CO2 concentratie het gevolg is van een temperatuurverandering, en niet de oorzaak…
De andere mogelijkheid is dat beiden het gevolg zijn van een derde onbekende…
En daarmee is dan gelijk de complete basis van de klimaatmodellen onderuit gehaald!
Ik heb geen enkel vertrouwen in de klimaatmodellen. Met genoeg variabelen, kun je zelfs witte ruis fitten. En dat lijkt precies te zijn wat er gedaan wordt.
frankeren says
Heeft u wat links hieromtrent die wij kunnen bestuderen?
Pepijn van Erp says
Op http://klimaatverandering.wordpress.com/2012/12/19/de-sceptische-top-10-of-waarom-klimaatsceptici-ongeloofwaardig-zijn-2/ staat ook het een en ander over de correlatie tussen CO2 en temperatuur en daar staan ook een aantal links naar artikelen.
Het is sowieso wel een aardig reeks blogs over de argumenten die klimaatsceptici aanvoeren.
frankeren says
Dank voor de link, leuk en interessant.
@ JWN Als je het over “vele jaren” hebt denk ik aan 5 tot 10 jaar, of moet ik aan 400 jaar denken?
Bob Brand says
Het ‘argument’ dat er 400 jaar vertraging zit tussen T (begin stijging van de temperatuur) en [CO2] (toename van CO2-concentratie) betekent allerminst dat CO2-concentratie géén rol zou spelen bij de temperatuurtoename. Wel betekent het dat [CO2] niet de primaire oorzaak is van de interglacialen – en de klimaatwetenschap zegt dat dan ook niet.
Bij de overgang van een ijstijd (glaciaal) naar een interglaciaal (de warme periode tussen ijstijden) is de primaire oorzaak de verandering van de Milankovic-parameters: de inclinatie van de aardas die elke 41.000 en 100.000 jaar varieert. Een toenemende/maximale inclinatie betekent dat de overvloedig aanwezige landmassa’s rond 65° NB véél meer zonlicht ontvangen tijdens de zomer – langere dagen en de zon staat hoger aan de hemel. Daardoor zal tijdens de zomer de sneeuwbedekking weg gaan smelten, die daarvoor het gehele jaar door aanwezig was. Dat zet een reeks veranderingen in gang: de donkere grond absorbeert veel meer zonlicht (afnemende albedo) en zoet smeltwater bereikt de oceaan waar het tijdelijk de thermohaliene circulatie kan stopzetten/vertragen.
De thermohaliene circulatie is de link tussen noordelijk en zuidelijk halfrond: als die stopt/vertraagt wordt er veel minder warmte getransporteerd vanaf de zuidelijke oceanen naar de noordelijke Atlantische oceaan – deze warmte blijft dan op het zuidelijk halfrond (dit mechanisme staat bekend als de ‘bipolar seesaw’). Het heeft meerdere effecten: opwarming op Antarctica, opwelling van diep oceaanwater dat veel koolzuurgas bevat, uitgassing naar de atmosfeer -> stijging van [CO2] en trouwens ook van methaangas (dat vrijkomt uit ontdooiende permafrost op het noordelijk halfrond).
De toename van CO2 en methaan versterkt vervolgens de opwarming: je ziet dan ook ná die ca. 400 jaar een *versnelling* van de temperatuurstijging. Deze gassen zijn in dit proces dus niet de initiële oorzaak maar ‘versterkende feedbacks’. De initiële oorzaak (de ‘forcing’) is in dit geval de toegenomen zomer-insolatie op het vasteland rond 65° NB. In een schemaatje:
A -> Temperatuurtoename + lagere albedo + blokkade THC -> T zuidelijk halfrond + meer [CO2] + [CH4} -> méér Temperatuurstijging.
De klimaatonderzoekers zijn zich zeer bewust van ‘correlation does not imply causation’. De individuele stappen in dit proces (en de tijdsvertragingen) zijn voortdurend onderwerp van onderzoek en de basis werd al in de jaren ’40 en ’50 van de 20e eeuw gelegd door Milankovitch en anderen: http://www.aip.org/history/climate/cycles.htm
Andere belangrijk onderzoek is van Plass en Roger Revelle (begin jaren ’60) en Imbrie et al. uit 1979, waar dit proces ook in detail is beschreven. De moderne kijk hierop staat goed aangegeven in Shakun et al. 2012, waarvan hier een uitleg + linkje naar de volledige publicatie te vinden is: http://www.skepticalscience.com/skakun-co2-temp-lag.html
frankeren says
@JW
Dat is toch juist het verschil tussen weer en klimaat?
Als je de kachel hoger zet duurt het toch enige tijd duurt voordat de muren, vloeren, plafonds en meubelen warmer worden. Ik kan me voorstellen dat het een paar jaar duurt voordat land-, water- en luchtmassa zijn opgewarmd als er meer CO2 komt. De elfstedentocht is toch ook niet op 21 december maar gemiddeld op 24 januari?
Jan Willem Nienhuys says
OK, bij forse periodieke veranderingen in de hoeveelheid ingestraalde loopt de lokale temperatuur ongeveer een maand achter. Tussen 21 december en 21 januari is de hoeveelheid ingestraalde warmte kennelijk niet voldoende om de dan gemiddelde temperatuur te handhaven.
Maar hier gaat het over een wereldwijde gedurige vermindering van de hoeveel uitgestraalde warmte, en een tijdsvertraging van vele jaren.
Trouwens, als je de kachel hoger zet, is het huis niet meteen op temperatuur, maar begint wel ogenblikkelijk de temperatuur te stijgen, al is het niet zoi vlug als je misschien zou willen.
Hoe moet je nou uit de cijfers een causaal verband vinden tussen twee dingen die stijgen? Dat kan als de stijging niet voortdurend in hetzelfde tempo is, en de variaties van beide processen op elkaar lijken. Dan heb je wat. Of als je zonder vrije parameters op grond van een fysisch model het ene proces nauwkeurig kunt voorspellen uit het andere.
Als er echter in je model niet 1 oorzaak maar laten we zeggen 5 oorzaken zitten en je gaat bij elk van die oorzaken een paar vrije parameters (bijvoorbeeld een tijdverschuiving) bedenken die je zo kiest dat de aanpassing zo goed mogelijk klopt, dan wordt het waarschijnlijk onzin.
Er is een Deen die denkt dat wolkvoming door kosmische stralen de verklaring is. Daar heeft hij ook een boek over geschreven. Nou is er van wolkvorming weinig bekend, het is de grote onbekende in deze discussies. Wolken weerkaatsen niet alleen zonlicht, maar de temperatuur van de bovenkant van de wolken bepaalt hoeveel ze uitstralen. En: bij hogere temperatuur verdampt er meer zeewater -> meer wolken. Maar het boekje van die Deen vertoont veel kenmerken van pseudowetenschap, namelijks alsmaar de hypothese over het mechanisme veranderen en ook gegevensselectie.
Het boekje heet in het NL Kosmisch klimaat en is van Calder en Svensmark. Svensmark denkt dat een actieve zon flarden van magnetische velden tot enorme afstanden van de zon wegstuurt met de zonnewind, en dat die dan de kosmische stralen verstrooien. Bij een inactieve zon zijn er dan meer kosmische stralen, meer condensatiekernen voor wolken en dus meer wolken (vooral boven zee) en dus lagere temperaturen. Interessant, maar ik geloof er niet zoveel van, en het zal ook wel niets bijdragen aan aan hoe het nou met de CO2-invloed zit.
Harry_Smit2012 says
Ik ben benieuwd wat er gaat gebeuren als men achter de werkelijke oorzaak(en) van autisme komt. Dat kon nog weleens dit jaar worden.
frankeren says
Het is toegestaan hoor, om direct tekst en uitleg en links te geven in plaats van te blijven steken in vage profetieën.
Maarten Koller says
Maar op deze manier heb je altijd gelijk. Per definitie kan je met een zin als ‘het kon binnenkort weleens gebeuren’ jezelf ingedekt voor alle mogelijkheden: A) het gebeurt: je hebt gelijk, B) er gebeurt niks, je hebt in de toekomst gelijk. Als je concreet wordt moet je misschien weleens je ongelijk toegeven, en dat is onprettig. 😉
Ragnar764 says
Hoe weet jij dat?
Harry_Smit2012 says
Ik wil echt niet vaag zijn maar het is eigenlijk gewoon niet mogelijk om daar vrijuit over te schrijven. Ik zou gelijk weer beschuldigd worden van trollen en ook het H-woord zou weer vallen en dat gezeur wil ik nu even niet.
frankeren says
Dat is de ultieme trol. Ik weet iets over jouw mammie maar ik ga het lekker niet zeggen.
“H” kan nooit de oorzaak zijn van autisme en ook nooit de oplossing dus u kunt ons best de bron geven zonder op H terug te vallen.
Harry_Smit2012 says
Google eens op CEASE-therapie, krijg je alles te weten wat je wilt.
Bart Verheggen says
Jan Willem Nienhuys,De oorzaak van een vertraagde respons van hte klimaat is de grote warmtecapaciteit vd oceanen: het kost tijd om die op te warmen. Je pannetje water kookt ook niet meteen als je het fornuis aanzet. Die vertraging wordt niet in modellen gestopt (input), maar is een *resultaat* van de natuurkundige parametrisaties. Over Svensmakr’s theorie dat kosmische straling het klimaat zou beinvloeden: Dat komt ook in de “top 10” ter sprake: https://klimaatverandering.wordpress.com/2013/01/23/de-sceptische-top-10-of-waarom-klimaatsceptici-ongeloofwaardig-zijn-7-tm-9/Er is geen trend in zonnestraling of kosmische straling de laatste 50 jaar, dus dat kan niet verantwoordelijk zijn voor de geobserveerde opwarming die juist in de afgelopen 35 jaar het sterkst was.
frankeren says
Het kost tijd om op te warmen zoals ik ook al zei. Maar is 400 jaar geloofwaardig?
Uit de grafiek op klimaatverandering.wordpress blijkt dat bij het einde van een ijstijd temperatuur en CO2 gelijk omhoog schieten. Bij het begin van een ijstijd daalt de temperatuur, maar de CO2 pas heel veel later. Maar er zijn veel meer factoren in het spel.
Bart Verheggen says
Temperatuur en CO2 zijn als kip-ei: beinvloeden elkaar.
Aan eind van laatste ijstijd ging eers T omhoog en pas honderden jaren later CO2 (als feedback). Die CO2 beinvloedde op haar beurt weer de verdere temp-stijging.
Zie ook https://klimaatverandering.wordpress.com/2008/05/26/halve-waarheden/ (4de item) of voor meer detail http://www.skepticalscience.com/co2-lags-temperature.htm