Corrigeert de wetenschap zichzelf?

Dit is een vertaald artikel. Het oorspronkelijke artikel is te vinden op de website van de JREF.

In theorie, ja. In praktijk, kan het beter.

Een artikel, gepubliceerd in De Economist, bespreekt een onderwerp waar skeptici al jaren over praten. Er is nogal wat onderzoek troep gepubliceerd dat onbetrouwbaar is. Dit betekent dat je standpunt nog niet juist hoeft te zijn, ook al kun onderzoeken vinden die jouw standpunt lijken te ondersteunen. Je kunt geen antwoord vinden op een vraag door alleen de onderzoeken die jou goed uitkomen te citeren. Je moet een kritische analyse doen van al het beschikbare onderzoek.

Het volledige artikel is het lezen waard en regelmatige lezers van skeptische blogs zullen waarschijnlijk veel van de punten en referenties herkennen, maar zullen vast ook wat nieuwe details leren. Hier volgt mijn eigen samenvatting van de belangrijkste aandachtsgebieden met betrekking tot de kwaliteit en betrouwbaarheid van gepubliceerd wetenschappelijk onderzoek.

De meeste studies zijn van een bedroevende kwaliteit – Om grondig wetenschappelijk onderzoek te doen heb je veel tijd en geld nodig. Onderzoekers voeren daarom vaak vooronderzoek of verkennende studies uit, die klein zijn en die slechts basale mogelijkheden tot controle kennen. Dit soort studies is onbetrouwbaar en alleen nuttig om te bepalen of verder onderzoek gerechtvaardigd is. Vooronderzoeken die positieve uitkomsten tonen, zijn vaak vals-positief (de redenen hiervoor geef ik later) en veel betrouwbaarder wanneer ze negatieve uitkomsten laten zien.

Publish or perish – Onderzoekers en instituten staan onder grote druk om te publiceren. Dit bevordert het publiceren van grote aantallen onderzoeken van lage kwaliteit of het publiceren van de “kleinst mogelijke eenheid van onderzoek” uit een lopend onderzoek om zo het aantal papers dat uit een onderzoek wordt gehaald, te maximaliseren.

Probleem bij de onderzoeker (researcher bias) – Onderzoekers zijn mensen die graag willen dat hun ideeën correct zijn en onderzoek wordt soms uitgevoerd door de industrie of anderen die belang hebben bij bepaalde uitkomsten. Zelfs binnen algemeen geaccepteerde methoden van onderzoek hebben onderzoekers nog een grote vrijheid, ofwel speelruimte. Deze vrijheid kan worden misbruikt (bewust of onbewust) om een positief resultaat te bereiken, zelfs op basis van louter negatieve data. Simmons et al. hebben laten zien dat in 60% van de gevallen een p-waarde van 0,05 kan worden gegenereerd uit negatieve data alleen maar door de speelruimte te gebruiken, die een onderzoeker heeft. In enquêtes geeft een derde van de onderzoekers toe dat ze zich wel eens vrijheden permitteren om positieve resultaten te behalen.

Probleem bij het publiceren (publication bias) – Tijdschriften, hetzij in druk hetzij online, hebben zo hun eigen motieven voor succes. Tijdschriften die afhangen van hun abonnees willen hun impactfactor [link toegevoegd door redactie] maximaliseren en dat betekent dat ze opwindend onderzoek willen publiceren met nieuwe en verrassende uitkomsten. Zulke artikelen zijn nou net het soort dat gemakkelijk met vals-positieve resultaten komt. Open-Access tijdschriften, die auteurs een bijdrage vragen, willen juist veel publiceren, ongeacht de kwaliteit. Een recent artikel in Science wees op de bedroevende kwaliteitscontrole in deze tak van de industrie. Daarbij komt dat onderzoekers zelf eerder een artikel met positieve resultaten indienen dan een met negatieve resultaten.

Gebrek aan replicaties – Onafhankelijke replicaties zijn de sleutel tot de zelfcorrigerende aard van de wetenschap. Het probleem is echter dat wetenschappers niet voldoende replicerend onderzoek doen en dat tijdschriften ze niet genoeg publiceren. Er is het nu beroemde incident bij Psychology Today dat een vreselijk onderzoek van Daryl Bem publiceerde waarin werd geclaimd dat mensen “de toekomst konden aanvoelen”. Richard Wiseman et al. deden een exacte replicatie van een van Bem’s onderzoeken, dat negatieve uitkomsten opleverde en stuurden het naar Psychology Today voor publicatie. Hun antwoord? We publiceren geen exacte replicaties. Waarom niet? Omdat ze niet sexy genoeg zijn hun impact factor te verhogen.

Een overzicht uit 2012 laat zien dat slechts ongeveer 1% van de psychologische onderzoeken die de afgelopen eeuw zijn gepubliceerd, replicaties waren. Dit overzicht is, voor zover ik het weet, nooit gerepliceerd.

Vergissingen – Onderzoekers vergissen zich soms gewoon en reviewers pikken die fouten er niet altijd uit. Een studie uit 2011 vond dat 50% van de bekeken neurowetenschappelijke onderzoeken een bekende statistische fout bevatten – een fout die vaak negatieve resultaten veranderde in positieve resultaten.

Fraude – Hoewel vooral fraude de krantenkoppen haalt, levert het waarschijnlijk slechts een kleine bijdrage aan het probleem van vals-positieve uitkomsten in gepubliceerd onderzoek. Maar het komt voor en vervuilt daarmee de wetenschappelijke literatuur.

Het goede.

Het is niet allemaal kommer en kwel en ik wil niet een te zwart beeld schetsen. Het is mogelijk om naar alle problemen met wetenschappelijke publicaties te kijken en te concluderen dat het allemaal hopeloos gebrekkig is. Maar dat zou op zijn best nihilistisch zijn en op zijn slechts al het goede ontkennen.

Het opsommen van alle potentiële problemen bij het doen van onderzoek is niet om het als hopeloos neer te zetten, maar aan te geven dat het moeilijk is. We kunnen nog steeds betrouwbare conclusies verkrijgen in de wetenschap door zorgvuldig al het onderzoek te controleren, het slechte te verwijderen en zo vooral te steunen op het meest degelijke onderzoek dat op de juiste wijze is gerepliceerd.

Met andere woorden – al het bovenstaande informeert ons over waar we de drempel moeten leggen voor het accepteren van iets als “wetenschappelijk bewezen”. Skeptici hebben veelal een beter idee waar deze drempel gelegd moet worden dan gelovigen, die vaak een belachelijk lage drempel hanteren, tenminste voor wat betreft hun specifieke geloof.

Als alles volgens de regels gaat, functioneert wetenschap best goed. Onderzoekers zullen nauwkeurig een vondst repliceren, voordat ze tijd gaan besteden aan vervolgonderzoek. Niemand wil zijn schaarse middelen verspillen aan de vals-positieve uitkomsten van iemand anders. Uitkomsten van onderzoek die strijdig zijn, zullen diepgaand worden bediscussieerd totdat consensus is bereikt over een onderzoeksprotocol en alle partijen accepteren de uitkomsten daarvan. Met als gevolg dat we voor veel belangrijke vragen degelijke studies hebben die meerdere malen zijn gerepliceerd met een duidelijk resultaat.

Het is ook belangrijk om duidelijk te maken dat we weet hebben van alle bovengenoemde problemen bij wetenschappelijk onderzoek omdat wetenschappers de moeilijke meta-vragen stellen over het wetenschappelijke proces zelf. Dus niet alleen is wetenschap zelfcorrigerend, ook de mechanismen van zelfcorrectie zijn zelfcorrigerend.

Oplossingen

Alle genoemde problemen hebben oplossingen. Deze oplossingen zijn niet moeilijk toe te passen of duur, maar ze worden soms traag geaccepteerd omdat ze een cultuuromslag vereisen binnen de wetenschap. Hier zijn een paar suggesties.

Betere opleiding van wetenschappers – Veel vergissingen in de wetenschap komen voort uit onwetendheid en kunnen worden opgelost door een betere opleiding. Een meer formele en grondige opleiding in onderzoeksmethodologie en vergissingen die moeten worden vermeden, zou helpen. Kortom, alle wetenschappers zouden betere skeptici moeten worden en hier ligt een belangrijke rol voor de gemeenschap van skeptici.

Kwaliteitscontrole bij tijdschriften – Tijdschriften moeten hun werk beter doen door systematisch fouten en onderzoek van slechte kwaliteit tegen te houden. Er zijn, natuurlijk, wetenschappelijke tijdschriften van topkwaliteit die hierbij in het algemeen uitstekend werk verrichten, ook al slippen slechte studies soms door de mazen van het net. Het probleem is echter dat de meeste tijdschriften middelmatig en vele verschrikkelijk zijn. De tijdschriften zelf moeten beter worden gescreend en alleen degenen die een significant hoge graad van kwaliteit bereiken, moeten worden toegelaten tot de officiële peer-reviewed literatuur. We moeten de achterdeur sluiten voor slecht onderzoek dat via slechte tijdschriften binnenkomt.

Om peer-review en redactioneel-review te verbeteren, zou het een vereiste moeten zijn dat onderzoekers hun ruwe cijfermateriaal ook aanleveren wanneer ze een artikel aanbieden.

Publiceer replicaties en onderzoek met negatieve resultaten – Tijdschriften moeten ruimte maken voor publicatie van studies met negatieve resultaten en exacte replicaties. Op een bepaalde manier is het nogal egoïstisch van tijdschriften met een grote impact, om nieuw en opwindend onderzoek af te romen en niet hun eerlijke deel van het publiceren van replicaties en negatieve resultaten op zich te nemen. Dit leidt tot perverse prikkels, waardoor misschien het meest waardevolle onderzoek wordt verwaarloosd. Voor online tijdschriften is ruimte geen probleem en dus ook geen valide excuus. Voor gedrukte tijdschriften geldt dat ze secties zouden moeten reserveren voor de genoemde soort studies en zij kunnen ook online aanvullingen publiceren met alle replicaties en negatieve studies die ze maar willen. Als die maar van hoge kwaliteit zijn.

Registreer alle onderzoeken – Je kunt geen onderzoek met negatieve resultaten verstoppen als je het vooraf moet registreren. In sommige landen is registratie al verplicht als het gaat om onderzoek waar mensen bij betrokken zijn, maar andere onderzoeksgebieden kunnen ook profiteren van registratie van onderzoek.

Volledige openheid van zaken – Dit is al grotendeels het geval, maar ik vermeld het volledigheidshalve – onderzoekers moeten volledige openheid geven over mogelijke belangenverstrengeling als ze een artikel indienen of presenteren.

De media – Wetenschapsjournalisten en andere publieksvoorlichters zouden het publiek moeten inlichten over het rommelige karakter van wetenschap, en wat er allemaal nodig is om een betrouwbare conclusie te bereiken. Het publiceren van voorlopige onderzoeksresultaten met sensationele krantenkoppen, doet de publieke opinie over wetenschap geen goed.

Pleiten voor verbeteringen in de wetenschappelijke instituties en publieke voorlichting over de methoden die in de wetenschap worden gebruikt, is een van de kerntaken voor de skeptische gemeenschap. De gegevens zijn er; we kennen de problemen en de oplossingen. We hoeven alleen maar druk uit te oefenen om te verbeteringen wat misschien wel het meest belangrijke menselijke instituut is – wetenschap.

Steven Novella, arts, is Senior Fellow bij de JREF en directeur van JREF’s Science-Based Medicine project.

Dit is een vertaald artikel. Het oorspronkelijke artikel is te vinden op de website van de JREF.

« Previous Entry

Uit Skepter: Echte Zombies op Haïti

Skepsis congres 2013 – Bernd Kramer – Enlightenment anyone?

Comments

Henk001 says

18 April 2014 at 10:51

Replicaties…
“Een resultaat is geen resultaat,
twee resultaat is een half resultaat,
drie resultaat is een Paasresultaat”
(sorry, kon het niet laten op Goede Vrijdag)

Log in to Reply
- Hans1263 says
  
  19 April 2014 at 11:46
  
  En geloof (uw reactie hierboven) leidt tot kwaakzalverij.
  
  Log in to Reply
Henk001 says

18 April 2014 at 11:11

Zou het geen goed idee zijn om voor iedere studierichting een college hierover te geven? Noem het “Wetenschapskwaliteit” of zo, zoals vroeger “Wetenschap en Samenleving” verplicht was. (Bestaat dat nog?) Als basis zou dit artikel dan kunnen worden uitgewerkt. Dan zou het aantal “ongelukjes” misschien al wat minder worden.
Overigens blijkt ook hier dat geld corrumpeert, zowel door de 3e geldstroom als door de commercialiteit van wetenschappelijke tijdschriften. Zouden we niet een database kunnen aanleggen waarin alle publicaties worden genoemd, de na peer-review geaccepteerde, maar ook de om wat voor reden ook afgewezen publicaties?

Log in to Reply
- Pepijn van Erp says
  
  18 April 2014 at 11:18
  
  De website Retraction Watch doet dat laatste in feite al en probeert ook te achterhalen wat er nu aan een retractie ten grondslag lag. Meestal gaat het om plagiaat, dat is ook wel wat makkelijker te bewijzen.
  
  Log in to Reply
Jan Willem Nienhuys says

18 April 2014 at 11:35

Ik moet zeggen dat ik niet goed snap wat ‘de bekende statistische fout’ is. En ik snap niet waarom ‘refereed’ tijdschriften niet elk artikel laten controleren door een statisticus in dienst van het tijdschrift. Ze hebben toch ook gesalarieerd personeel voor de opmaak? ‘Peer’ review betekent dat je er iemand naar laat kijken die waarschijnlijk net zoveel of minder van statistiek weet als de inzenders.

Log in to Reply
- Maarten Koller says
  
  18 April 2014 at 13:37
  
  Voor wat betreft die eerste vraag, klik even de link aan voor meer uitleg.
  
  Log in to Reply
Renate1 says

18 April 2014 at 12:02

Zou het kunnen dat men origineel onderzoek belangrijker vindt dan het repliceren van onderzoek dat eerder is gedaan?

Doet me denken aan een fragmentje uit ‘The big bang theory’, waarin Leonard z’n moeder wil laten zien waar hij mee bezig is, iets wat zij afwijst, omdat het geen origineel onderzoek betreft en ze derhalve net zo goed de publicaties over het originele onderzoek kan lezen.

Log in to Reply
- FVerweven says
  
  18 April 2014 at 12:24
  
  Ik stel voor om studenten te verplichten eerst een onderzoek te repliceren alvorens zelf aan de slag te mogen.
  Of de tijdschriften bij een replicatie veel tijd in de review willen steken lijkt me onwaarschijnlijk, zeker als de uitkomst hetzelfde is als het origineel.
  
  Log in to Reply
Jan Willem Nienhuys says

18 April 2014 at 13:06

Ik heb inmiddels een duidelijke uitleg gevonden van Ben Goldacre. http://www.theguardian.com/commentisfree/2011/sep/09/bad-science-research-error

simpel voorbeeld: je hebt twee groepen muizen: gewone G en mutant M . Je geeft ze allebei iets (uiteraard hezelfde), en je meet de gevolgen. Bij M daalt de activiteit of het gehalte of het tempo van X met 30%. Een significante daling (d.w.z. gegeven het aantal M-muizen en de natuurlijk fluctuaties zowel tussen muizen onderling als in een muis in de loop van de tijd, en ook gegeven de meetfouten die je met het meten van X maakt). Bij G daalt X maar 15% en dat is niet significant, i.e. gegeven de variabiliteit van X en de aantallen G-muizen kan dze daling heel goed toeval zijn.

De fout is dan dat je redeneert ‘Bij G is geen verandering en bij M wel’.
De correcte procedure is dat je kijkt naar het verschil tussen de gemiddelde X-waarde bij de G-muizen en bij de M-muizen, en dan probeert uit te rekenen of dat verschil zo groot is dat de conclusie ‘het zou wel sterk zijn als dit puur toeval is’.

Ik herinner me een artikel van Ariëns (in Skepter 2.1) waarin hij precies de tegenovergestelde fout behandelde.

Er zijn weer twee groepen die we nu P (placebo) en V (verum) noemen. Ze krijgen verschillende behandelingen A en B. De vraag is of A en B verschillend effect hebben.
In het voorbeeld van Ariëns is er in groep V een flinke verandering, en in groep P niet.
Alleen is het startpunt bij beide groepen verschillend, en de groepen zijn dus niet goed vergelijkbaar.

Log in to Reply
- Pepijn van Erp says
  
  18 April 2014 at 14:09
  
  Geoff Cumming heeft op YouTube een aantal filmpjes staan nav zijn boek ‘The New Statistics’, in één ervan stipt hij ook dit probleem aan: https://www.youtube.com/watch?v=nRcAqMrijCw Sowieso wel een aardige reeks filmpjes
  
  Log in to Reply
Ragnar764 says

19 April 2014 at 02:54

“Skeptici hebben veelal een beter idee waar deze drempel gelegd moet worden dan gelovigen, die vaak een belachelijk lage drempel hanteren, tenminste voor wat betreft hun specifieke geloof”.

Zo zie je maar weer, geloven is uiteindelijk veel gemakkelijker en levert ook nog eens veel minder stress op, bovendien schijnt het volgens P & P tevens garant te staan voor een weldadige invloed op de gezondheid.

Log in to Reply
- Henk001 says
  
  19 April 2014 at 06:40
  
  Gemakzucht leidt tot obesitas en gebrek aan geloof wordt ruimschoots gecompenseerd door humor, ook heel gezond
  
  Log in to Reply
  - Ragnar764 says
    
    19 April 2014 at 12:32
    
    Een vorm van geestelijke gemakzucht hoeft zeer zeker niet tot obesitas te leiden en gebrek aan geloof levert juist, als ik de column over het moeizaam bewandelen van het wetenschappelijke traject zo lees, oneindig veel meer stress dan plezier op.
    
    Log in to Reply