Skeptici roemen vaak het zelfreinigend vermogen van de wetenschap. Zelfcorrectie onderscheidt de wetenschap van de astrologie en andere pseudowetenschappelijke nepperij. Maar corrigeert de wetenschap wel altijd zijn eigen missers? Over die vraag stond een paar dagen geleden (25 juni) een interessant artikel in de New York Times. Een korte samenvatting.
Het artikel begint met een optimistisch citaat van Carl Sagan:
“There are many hypotheses in science which are wrong. That’s perfectly all right: it’s the aperture to finding out what’s right. Science is a self-correcting process.”
Om direct daarna vast te stellen dat de werkelijkheid niet zo simpel in elkaar zit. Wetenschap heeft geen ‘auto-correct’-knop. De wetenschap repareert niet altijd (met gemak) zijn fouten:
‘Science runs forward better than it does backward. Why? One simple answer is that it takes a lot of time to look back over other scientists’ work and replicate their experiments’.
Het tijdschrift Science publiceerde in mei acht kritische commentaren naar aanleiding van een controversieel artikel over bacteriën die arsenicum in hun DNA zouden kunnen inbouwen (in plaats van fosfor). Maar het betwiste onderzoek werd door geen van de critici herhaald. Dat zou een team namelijk maanden werk hebben gekost. Veel wetenschappers besteden niet graag zoveel energie als de kans op een negatief resultaat groot is. Ze werken liever aan onderzoek dat nieuwe inzichten oplevert. Een van de criticasters (Rosie Redfield van de Universiteit van British Columbia): “Scientifically I think trying to replicate the claimed results is a waste of time.” Daardoor zijn er onvoldoende argumenten om de controversiële paper in te trekken. De conclusies van het oorspronkelijke artikel blijven dus overeind.
Soms nemen wetenschappers wel de moeite om een onderzoek te herhalen. Dan lopen ze wel het risico dat hun resultaten niet worden gepubliceerd. En dat is slecht voor je wetenschappelijke carrière. Daryl Bem, een psycholoog aan de Cornell Universiteit, schokte zijn collega’s met een zeer merkwaardig onderzoeksresultaat dat hij publiceerde in The Journal of Personality and Social Psychology. Mensen zouden meetbaar beïnvloed worden door toekomstige gebeurtenissen. Drie onderzoeksteams herhaalden het onderzoek van Bem – zonder resultaat. Een van de teams schreef een artikel. Maar dat werd afgewezen door het tijdschrift. Niet omdat het herhaalde onderzoek niet zou deugen, maar ‘omdat we nooit herhalingsstudies publiceren’ zo lichtte de hoofdredacteur toe. Amerikaanse skeptici verwierpen de onderzoeksresultaten van Bem. Maar een ‘debunk’-artikel in de Skeptical Enquirer heeft natuurlijk niet de status van een officiële retraction. De conclusies van het oorspronkelijke artikel blijven dus overeind.
En zelf als herhaald onderzoek wél wordt gepubliceerd leidt dit er niet altijd toe dat een controverse wordt beslecht. Dat overkwam de onderzoekers die het XMRV virus niet konden vinden in patiënten met het chronische vermoeidheidssyndroom. In 2009 publiceerde Judy Mikovits in Science dat lijders aan dit syndroom dit virus bij zich droegen. Toen andere onderzoekers het virus niet konden vinden en Mikovits vroegen om haar artikel in te trekken, reageerde ze dat ze dat ‘prematuur zou vinden’. Science publiceerde wel een ‘expression of concern’. De conclusies van het oorspronkelijke artikel blijven dus overeind.
Toch zit er beweging in het XMRV-onderzoek. Samen met viroloog Ian Lipkin herhaalt Judy Mikovits haar onderzoek op verzoek van het Amerikaanse Institutes of Health. Jammer genoeg is dit soort onderzoek de uitzondering en niet de regel.
Hans says
Het onderzoek met de “arsenicumbacterien” bleek al heel snel hiaten te bevatten die eerst moeten worden opgehelderd om de conclusies in stand te kunnen houden. Herhaalonderzoek heeft dan niet zoveel zin. Eerst maar eens je huiswerk overdoen…
In dit geval waren de missers al heel snel gevonden. Het is niet definitief gezegd dat de aanname fout is, maar het bewijs was nog niet voldoende. Hier was gewoon te snel gepubliceerd, tuk op succes.
Kate says
Informatie wordt op het internet bovendien oneindig gekopieerd en heel vaak zonder bronvermelding. De waarheid moet daardoor nog harder hollen om de leugen in te halen.
Albert Bakker says
Het lijkt me toch dat er ook nog wel onderscheid gemaakt kan worden in twee hoofdtypen hypothesen, met het oog op het door Sagan gepopulariseerde criterium extraordinary claims require extraordinary evidence.
De hypothese dat in bepaalde bacterieen een bepaald aantal fosfaatgroepen door arsenaat zijn vervangen in de DNA keten onder bepaalde zeer speciale omstandigheden kwalificeert met vlag en wimpel als een buitengewoon interessante hypothese en een die zeker een zware bewijslast rechtvaardigt, maar het is nog steeds een ordinary claim, in die zin dat het niet in strijd is met de wetten der natuur zoals we die momenteel begrijpen, m.a.w. het is in principe mogelijk.
Evenzeer geldt dit voor een hypothetisch virus die via mechanismen die we dan niet kennen uiteindelijk vage vermoeidheidsklachten effectueert: zeker een buitengewone claim die een buitengewoon zware bewijslast legitimeert voor het bestaan van dit virus, maar geen claim die strijdig is met de wetten der natuur.
Zoniet geldt dit voor het tijdreizen van informatie naar het verleden die de (onduidelijk geformuleerde) hypothese van Bem onderligt, nl. voorgevoel en pre-cognitie is mogelijk, d.w.z. je kunt bewust of onbewust informatie ontvangen van een toekomst en daarop vervolgens acteren. (Of dit dan ook een iteratief proces is bijvoorbeeld wordt mij niet duidelijk.)
In ieder geval gaat dat lijnrecht in tegen de natuurkunde en alles wat we weten van de gedragingen van de tijdruimte en informatie. Als het waar is, kàn Algemene Relativiteit niet waar zijn. Dat is nog eens een bona fide extraordinary claim. Met de methodologische puinhoop zoals in het CSI artikel uiteengezet lijkt Bem geen aanspraak te kunnen maken op extraordinary evidence, in feite als het erop aankomt op geen enkele evidence whatever.
Het is een goed ding dat Zimmer hier een structureel zwak punt aanroert in de manier waarop wetenschappelijke publicaties moeilijk corrigeerbaar zijn en op uitgeef-technische moeilijkheden stuiten, dat het een negatieve impact heeft op de kwaliteit ervan. Toch lijkt me dat in een breder perspectief bezien het zelfreinigend vermogen van de wetenschap als collectieve menselijke activiteit zoals Sagan dat zag fier overeind blijft staan, ondanks de soms dramatische missers en de flauwekul in de marge.
Cryptocheilus says
Het waren (voornamelijk) Nederlandse statistici (Eric Jan Wagenmakers et al) met gedegen kritiek op de paper van Bem. Ze deden geen replicatiestudie maar lieten een een Bayesiaanse t-test op de paper los. Er bleef bijna niets van over.
Het sluit aan op wat Albert Bakker hierboven zegt. Extraordinary claims require extraordinary evidence.
http://cryptocheilus.wordpress.com/2011/01/07/paranormaal-ik-zie-ik-zie-wat-jij-niet-ziet/
Het ligt volgens mij toch anders. De conclusies van de artikelen blijven in de literatuur staan. Dat wil niet zeggen dat ze overeind blijven.
Wie meer wil weten over het heen en weer m.b.t. XMRV maakt gebruik van de zoekfunctie op mijn site.
Jan Willem Nienhuys says
Ik vond (net als Bakker) de kritiek van Alcock in S.I. wel overtuigend. Het hele idee van p-waarden berekenen is namelijk dat je het volgende rijtje afwerkt:
1. opstellen van een hypothese
2. bedenken van een proef om juist die hypothese te toetsen; onderdeel van dat bedenken is ook dat je het aantal individuen of deelexperimenten of raadpogingen van tevoren vastlegt en ook naar welk criterium je kijkt, en bij welk aantal je zult zeggen dat er iets aan de hand schijnt te zijn.
3. een berekening die onder de veronderstelling dat het toch toeval is en er dus eigenlijk niks aan de hand is aangeeft wat de toevalskans is op ten onrechte oordelen dat er iets aan de hand is. Dit heet: het berekenen van de p-waarde.
Wat gebeurt er helaas in de praktijk? Men doet een groot aantal verschillende proeven, legt zich ook niet vast op het aantal deelexperimenten, en men doet de berekening van punt 3 voor al die proeven.
Het aantal verschillende proeven is bij deze rommelige manier van werken astronomisch. Men kan bijvoorbeeld beginnen aan een serie deelexperimenten, en dan na elk deelexperiment een p-waarde berekenen. Men kan ook verschillende uitkomstmaten proberen.
De sporen van dit onzingedrag zijn wijdverbreid. Zo gauw men ergens een tabel ziet staan met meerdere getallen die elk van een p-waarde of iets dergelijks (bijvoorbeeld een sterretjes-systeem om de significantie aan te geven, alsof het om restaurants gaat), dan weet je al dat de auteurs het niet helemaal snappen.
Als het onderzoek zo’ n zootje is als Alcock beschrijft, dan is er eigenlijk ook niets meer te redden met bayesiaanse analyse. Op zijn minst houdt bayesiaanse analyse een schatting is van de a priori waarschijnlijkheid dat een dergelijk experiment iets gaat opleveren. Als de proeven berusten op rare ideeën, dan hebben ze ongeveer dezelfde a priori waarschijnlijkheid als dat een aap met een typemachine een Shakepeare-citaat produceert. Zelf met een geslaagde proef is de a posteriori waarschijnlijkheid dan zoiets als een aap die een Shakespearecitaat met 1 tikfout produceert.
Op gevaar af als een vervelende ouwe zeur te worden beschouwd, een criticaster dus, wil ik opmerken dat ‘bewijslast’ niet betekent ‘hoeveelheid bewijs’ maar ‘de taak om iets te bewijzen’. Wie wil bewijzen dat het heden het verleden kan beïnvloeden heeft een zware bewijslast, met andere woorden, die heeft heel veel te doen. Je kunt niet zeggen, ‘nee meneer, uw bewijslast is niet zwaar genoeg’. maar wel ‘u heeft een zware bewijslast, en waar u mee komt aanzetten is lang niet voldoende’.
Je ziet steeds vaker dat journalisten ‘bewijslast’ gebruiken in de zin van ‘hoeveelheid bewijs’ , en over enkele eeuwen is dat misschien de gewone woordenboekenbetekenis, maar voorlopig is het nog niet zo ver.
Johan Stuyts says
Wat mij als software-ontwikkelaar verbaast is dat er nog geen softwaresysteem is ontwikkeld voor peer-reviews. Het zal een ingewikkeld systeem worden om fraude te voorkomen, maar volgens mij moet het mogelijk zijn om een systeem op te zetten dat: peer-to-peer is (m.a.w. geen centrale server nodig), automatisch willekeurig reviewers kiest, automatisch de auteurs en reviewers anonimiseert, en aan ieder oordeel van een reviewer een gewicht hangt afhankelijk van de beoordeling van de publicaties van die reviewer (m.a.w. het oordeel van een goede wetenschapper is belangrijker).
Dit betekent natuurlijk dat iedereen mee moet kunnen doen in het netwerk, dus ook “weirdo’s”. Maar als zij geen goede publicaties doen, dan zullen zij automatisch minder naar voren komen in het systeem.
Maar misschien speelt hier het kip-en-eiprobleem wel: in het begin zijn er te weinig publicaties en te weinig reviewers om het systeem goed te laten werken, en omdat het systeem niet goed werkt doet niemand publicaties en wil niemand reviewen. Er zal dus een beginperiode moeten zijn waarin publicaties gedaan worden, maar waar deze publicaties nog geen beoordeling krijgen.
De kosten om zo’n systeem draaiende te houden zullen volgens mij meevallen. Ik denk dat ze nihil zullen zijn in vergelijking met de huidige IT-budgetten van universiteiten. Dat betekent dat het peer-reviewsysteem ook minder afhankelijk wordt van dure commerciële partijen (journals).
Stevenraaijmakers says
Arsenic bacterie: inmiddels replicatie studies gedaan.
Daryl Bem: artikel van EJ Wagenmakers ernaast gepubliceerd.
XMRV: inmiddels retracted.
Geen slechte score voor het zelfreinigende vermogen van de wetenschap.
Maarten Koller says
Hear hear! 🙂