Stapelgate en de Ondoorgrondelijkheid van de Wetenschapsfraude 1

Diederik Stapel (uit een interview)

Het is inmiddels al bijna tien jaar geleden dat Diederik Stapel na jaren van wetenschappelijke fraude door de mand viel. Het haalde zelfs de New York Times. In het jaar daarna schreef hij een boek van meer dan 300 pagina’s. Het boek is een autobiografie, een schuldbekentenis, een zelfanalyse, een inleiding tot wat eens z’n vakgebied was en een beschrijving van het leven aan het front van de wetenschap. Na het lezen van het boek heb ik ook het rapport van de Commissie Levelt gelezen en interviews bekeken die op Stapels eigen website staan. Maar uiteindelijk ben ik met veel vragen blijven zitten.

Precedenten

In z’n boek en in interviews beschrijft Stapel z’n wetenschappelijke fraude verschillende malen als “sjoemelen.”  Het zou hiermee volgens hem gaan om een verschijnsel dat algemener is dan gedacht wordt. Het gebeurt inderdaad dat wetenschappers hun data oppoetsen, masseren en bijstellen. “Outliers” in een dataset worden vaak weggegooid. Maar het is erg zeldzaam dat iemand het prestigieuze wetenschapsperiodiek Science haalt met de beschrijving van een onderzoek dat nooit plaatsgreep en data die gefingeerd zijn. Inmiddels zijn 58 artikelen van Stapel ingetrokken. Op de wereldranglijst voor de meeste intrekkingen neemt hij hiermee thans de vijfde plaats in.  Dat is toch wel meer dan wat “sjoemelen.”

In de natuurkunde hadden we in 2002 het “Schön Schandaal.” Bij het lezen van Stapels boek moest ik verschillende malen terugdenken aan een boek over het Schön schandaal. Zo’n dertig jaar oud was Hendrik Jan Schön in 2002 en net gepromoveerd aan de Universiteit van Konstanz. Hij had een onderzoeksbaan bij Bell Labs in New Jersey en werkte aan de constructie van organische moleculen met unieke elektrische eigenschappen. In 2000 en 2001 was er bijna iedere week een baanbrekend artikel waarop Schön de eerste auteur was. Het ging steevast om mijlpalen waarvan men wist dat ze in het verschiet lagen, maar waarbij werd gedacht aan een termijn van nog zo’n vijf á tien jaar. Hij leek op een Nobelprijs af te stevenen totdat, in het voorjaar van 2002, alles tot een einde kwam. Resultaten bleken gefingeerd te zijn. Iemand merkte dat precies dezelfde grafiek voorkwam in twee verschillende artikelen over twee geheel verschillende onderwerpen. Dat zelfs de ruis in de twee grafieken identiek was, dat was een beetje té toevallig. Men begreep toen ook al snel waarom laboratoria in de gehele wereld er steeds maar niet in geslaagd waren om Schöns prachtige resultaten te reproduceren. Schön zelf heeft zich naderhand nooit laten interviewen over de zaak. Dat is jammer. Ik had indertijd graag geweten wat iemand ertoe drijft om grootschalig te frauderen en dat te doen op een manier die uiteindelijke ontmaskering eigenlijk onvermijdelijk maakt.

Diederik Stapel zit wat betreft de openheid van zaken volledig aan het andere eind van het spectrum. In z’n boek “Ontsporing” legt hij z’n ziel volledig bloot. Gemoedstoestanden, ambities, twijfels, successen en teleurstellingen, privé en professioneel, en vanaf z’n vroege jeugd tot na het schandaal – alles staat erin.  Ook heeft hij zich veel op televisie laten interviewen en de interviews staan op z’n eigen website.

Meesterverteller

Het moet gezegd worden dat Diederik een goed schrijver is. Elk woord staat op de juiste plek.  Zinnen en alinea’s volgen elkaar vloeiend op. Nooit is er een voornaamwoord, een die, dat, of het, waarvan je niet weet waarop het terugslaat. Nooit hoef je een zin of alinea een paar keer te herlezen voordat je begrijpt wat er bedoeld wordt. Als lezer blijf je steeds nieuwsgierig naar wat er volgt en het leest soms als een verhaal van een meesterverteller uit de wereldliteratuur.

Ook de manier waarop het boek in hoofdstukken is verdeeld is effectief. Het eerste hoofdstuk beschrijft de stressvolle momenten toen alles begon in te storten. Een collega had hem verteld dat er twijfels waren gerezen met betrekking tot de waarachtigheid van z’n data. Diederik reist af naar Zwolle en naar Groningen. Dat waren de plaatsen waar hij z’n vragenlijsten zou hebben laten invullen. In de auto neemt hij in gedachten mogelijke scenario’s door – scenario’s voor de verhoren die hem te wachten staan. In het tweede hoofdstuk vertelt hij van z’n jeugd, z’n tijd aan de middelbare school en het jaar aan een Amerikaanse universiteit. Hij groeit op in Oegstgeest in een hogere-middenklasse-milieu. Het is een zorgeloze jeugd in een harmonisch gezin. Hij gaat gemakkelijk met mensen om en hij heeft een levendige interesse in wetenschap in cultuur. Hij heeft moeite met de keuze van een studie, maar hij komt uiteindelijk terecht in de sociale psychologie.

Sociale Psychologie

Stapelgate en de Ondoorgrondelijkheid van de Wetenschapsfraude 2

Het resultaat van een websearch naar Stapels artikel van 2011 in Science.

De sociale psychologie gaat erover hoe menselijk gedrag wordt beïnvloed door omgeving en omstandigheden. Het is eigenlijk de meest blijmoedige tak van de psychologie. Veel psychologie gaat over onontkoombare zaken als genen, neurotransmitters, persoonlijkheidsstoornissen en DSM-5. Maar voor de sociale psychologie is de mens kneedbaar en de samenleving daarmee maakbaar. In april van 2011 had Diederik een artikel in het prestigieuze periodiek Science. In het artikel wordt aangetoond dat racisme en vooroordeel consequenties zijn van een rommelige omgeving. In een straat vol vuilnis zoekt een mens compensatie door het creëren van een ordentelijke gedachtewereld waarin Friezen stug, vrouwen dom en negers lui zijn. Kortom, met beter onderhoud van openbare ruimten verdwijnt niet alleen de rotzooi, maar ook racisme. Stapel zou tot z’n conclusies zijn geraakt door dezelfde vragenlijst voor te leggen in een rommelige en in een opgeruimde omgeving. Het had mooi en eenvoudig geweest, ware het niet dat onderzoek en data gefingeerd waren. Het artikel in Science werd in december van 2011 ingetrokken.

Het boek bevat veel beschrijvingen van hoe in de sociale psychologie onderzoek wordt gedaan.  Wellicht ben ik als natuurwetenschapper enigszins bevooroordeeld, maar ik was niet echt onder de indruk van de wetenschappelijke gedegenheid in Stapels vakgebied. Vaak komt het erop neer dat je de proefpersoon een vragenlijst over een aantal persoonlijke voorkeuren laat invullen nadat je hem of haar een foto hebt laten zien. Met de eerste groep proefpersonen gaat het dan bijvoorbeeld om een foto van een biefstuk en met de tweede groep om een foto van een boom. Het was op ongeveer deze manier dat Stapel had uitgevogeld dat je van vlees hufteriger wordt. Het trof me dat dit soort proefjes steeds met vrij kleine groepen werd gedaan en dat de resultaten de chi-kwadraattoets maar net doorstonden, i.e., balanceerden op de rand van de statistische significantie. Al vroeg in z’n studie viel het Stapel op dat veel gepubliceerde resultaten in het vakgebied moeilijk te reproduceren waren. Als hij dan contact opnam met de betreffende onderzoekers, dan werd hem steevast verteld dat het resultaat ook afhing van allerlei subtiliteiten die niet vermeld stonden in de artikelen met de betreffende resultaten!?!?! In hoofdstuk 4, op pagina 107, schrijft Stapel dat het dan bijvoorbeeld gaat om zaken als het lettertype op de vragenlijst. Even verder vat hij één en ander samen met een slagzin die in het boek verschillende malen herhaald wordt: “Experimenteren is een kunst.”

Op een natuurwetenschapper komt dit bevreemdend over. In de betahoek van de universiteit is het de norm dat een experiment zodanig wordt beschreven dat iemand die nauwgezet het protocol volgt op het beoogde resultaat uitkomt. Reproduceerbaarheid en niet kunstigheid is de grondgedachte achter een experimenteel resultaat!

De Ondergeschikte Rol van het Experiment

In 1999 ontving Stapel een onderscheiding van de European Association of Social Psychology en kreeg hij de daarbij behorende uitnodiging om de driejaarlijkse Jos Jaspars Lecture te geven. Z’n naam is inmiddels verwijderd van de erelijst, maar de tekst van de lezing is nog te vinden. In z’n rede doet Stapel wat men geacht wordt te doen na de ontvangst van een belangrijke prijs. Hij praat over het vakgebied in het algemeen en bespiegelt, onder andere, over de relatie tussen theorie en experiment. Wanneer een natuurwetenschapper een experimentele test voor een theorie ontwerpt, dan is dat met de gedachte dat de uitkomst eventueel strijdig met de theorie zou kunnen zijn. Zo’n eventuele negatieve uitkomst is dan vervolgens tevens een doodvonnis voor de theorie. Maar Stapel en de sociale psychologie gaan hier op een veel vloeibaardere manier mee om.  In de lezing zegt Stapel:

Sometimes, for example, our research is theory- rather than data- or observation-driven. My point is that whatever way we arrive at our theories and hypotheses, the experiments and tests we design are made to verify, not to falsify our conjectures. The leeway, the freedom we have in the design of our experiments is so enormous that when an experiment does not give us what we are looking for, we blame the experiment, not our theory. (At least, that is the way I work). Is this problematic? No.”

De laatste deel van dit citaat wordt ook aangehaald in het rapport van de Levelt Commissie. De commissie was enigszins onthutst door de minachting jegens de experimentele werkelijkheid die hieruit spreekt. Twee verdere quotes laten zien hoe onverschilligheid ten aanzien van feiten en data centraal staat in Stapels methodologie:

“Our results are often paradigm-contingent. That is, we find what we are looking for because we design our experiments in such a way that we are likely to find what we are looking for. Of course! Should we design our experiments such that we are unlikely to find support for our hypotheses? Should we try to prove ourselves wrong? No, for the best results, we should use the methods that are likely to work best. Use a spoon to eat your soup and a cup to drink your tea. Not vice versa.”

“If we drop each theory, each fashion, each trend as soon as the slightest negative evidence crops up, there results the danger that we will wander around in circles and not obtain any clarification.”

Ook de Levelt Commissie stelt vast dat het met de mentaliteit die hieruit spreekt maar een klein stapje is naar het volledig fingeren van uitkomsten van proeven die nooit zijn uitgevoerd.

Statistisch Stuntwerk

Stapelgate en de Ondoorgrondelijkheid van de Wetenschapsfraude 3

Werp tien dobbelstenen tegelijk en neem de som der ogen. Wie dit een miljoen doet vind een mooi, glad, bell-shaped histogram waaruit het gemiddelde van 35 en de standaardafwijking van 5,4 duidelijk zijn af te lezen. Bij slechts honderd van zulke tien-dobbelstenen-worpen zijn er duidelijke afwijkingen.

Stel je neemt tien dobbelstenen. Je werpt ze allemaal tegelijk en je neemt het totale aantal ogen van alle dobbelstenen samen. Het is niet moeilijk te berekenen dat het gemiddelde en de standaardafwijking respectievelijk 35 en 5,4 zijn. Wanneer je deze tien-dobbelstenen-worp een miljoen maal doet en met een staafdiagram de frequentie van elke uitkomst weergeeft, dan vindt je een bijna perfecte “bell-shaped” curve (zie figuur).  Maar wanneer je de tien-dobbelstenen-worp honderd maal doet, dan is je steekproef te klein van omvang om een gladde “bell-shaped” curve te verkrijgen (zie figuur).  Er zijn dan relatief grote statistische fluctuaties rondom die bell-shaped curve.

Als je een meting doet, dan heb je in het algemeen te maken met ruis en onzekerheden. Wanneer er verschillende bronnen van ruis en onzekerheid zijn, dan is de uitkomst van je meting zoiets als de uitkomst van de tien-dobbelstenen-worp uit de vorige alinea. Er is een spreiding van resultaten rondom het gemiddelde en slechts door je meting een groot aantal malen te herhalen kun je dan inzoomen op dat gemiddelde.

Wie de uitkomsten van 100 metingen gaat fingeren zal, om geloofwaardig te zijn, niet alleen een bell-shaped curve moeten fingeren, maar ook de fluctuaties rondom die curve als in het onderste staafdiagram in de figuur. Het is niet eenvoudig om dit op het gevoel te doen. Hendrik Jan Schön was voor z’n val al eens aan de tand gevoeld omdat in één van z’n artikelen de spreiding van de meetpunten een te perfecte “bell-shaped” curve vormde. Hij heeft zich toen hieruit kunnen praten.

Het 5de deel van hoofdstuk 2 van het rapport van de Levelt Commissie is vrij droog.  Maar het komt er in wezen op neer dat Diederik Stapel in dezelfde val was gelopen als Hendrik Jan Schön. De fluctuaties die Stapel in z’n data had ingebouwd waren keer op keer onwaarschijnlijk klein, uiteindelijk te klein om voor realistisch door te kunnen gaan.

Maar ook op een meer elementair niveau waren de gefingeerde data van Stapel veelal weinig doordacht. Pepijn van Erp wijst er in z’n blog op hoe Stapel in een steekproef met 16 personen op een percentage van 15 uitkomt. Een meer koelbloedige en berekenende fraudeur zou zich gerealiseerd hebben dat het met twee van de 16 personen om 13 procent gaat en met drie van 16 personen om 19 procent.

De Motivatie

Waarom gaat iemand op grote schaal frauderen? En frauderen op een manier die eigenlijk heel doorzichtig is … Schön en Stapel waren allebei Russisch roulette aan het spelen en dat was niet alleen omdat de statistiek van de gefingeerde resultaten niet klopte. Schön had in de loop van 2000 en 2001 negen artikelen in Science en zeven artikelen in Nature. Zo beschreef hij bijvoorbeeld de constructie van een transistor die bestaat uit maar één molecuul. Het is niet moeilijk te voorspellen dat andere laboratoria dit willen reproduceren en als dat dan vervolgens steeds niet lukt, dan worden er steeds dringender vragen gesteld. Zoals hierboven vermeld is de sociale psychologie nogal vrijblijvend in de manier waarop ze omgaat met reproduceerbaarheid van experimentele resultaten. Maar het is gebruikelijk in dit vak dat het de studenten en de jongere medewerkers zijn die met de vragenlijsten op pad gaan. Uiteindelijk leveren ze de spreadsheets met resultaten af bij de professor. Die laatste schrijft dan de artikelen en tracht fondsen te verwerven voor verder onderzoek. Stapel, echter, zou zelf met de vragenlijsten op pad zijn gegaan. De medewerkers kregen uitgewerkte resultaten op hun bureau; resultaten die de theorieën spectaculair bevestigden. Stapel meldde hen daarbij dat hij de ingevulde vragenlijsten inmiddels al had weggegooid. Het waren uiteindelijk dan ook jongere medewerkers die de bal aan het rollen brachten door met hun argwaan hogerop te gaan.

Stapel beschrijft in z’n boek hoe het begon met het “bijstellen” van getalletjes in z’n spreadsheets, hoe het vervolgens steeds verder uit de hand liep en hoe het eindigde met verzonnen resultaten van enquêtes die nooit waren uitgevoerd. Hij wilde respect en bewondering van collegae en vakbroeders, zo luidt z’n eigen verklaring. Dat lukte inderdaad. Maar hij bleef doorgaan met de fraude, ook nadat hij onderzoeksprijzen had ontvangen en het tot professor en zelfs tot decaan had gebracht.

Tegenstrijdigheden

Als we hoofdstuk 6 van “Ontsporing” mogen geloven, dan is Stapel doodongelukkig geworden door z’n fraude. Gesprekken over z’n werk vermeed hij, omdat hij vreesde door de mand te vallen wanneer er eventueel doorgevraagd zou worden. Op congressen was hij bang het vuur aan de schenen gelegd te krijgen en schuwde hij z’n vakbroeders zoveel mogelijk. Hij bezocht een paar presentaties en liet zich even zien op een postersessie, maar hij ging niet naar gezamenlijke maaltijden en, in plaats van te verblijven in hetzelfde hotel als waar ook het congres plaatsvond, zocht hij een hotel elders in de stad waar hij dan in eenzaamheid veel films keek. Stapel beschrijft in z’n boek hoe hij zichzelf ook op de faculteit probeerde weg cijferen. Hij overhandigde z’n gefingeerde uitkomsten zoveel mogelijk in het voorbijgaan en op vrijdagmiddag. Door de weekendbeslommeringen zouden de medewerkers zich de eventuele vragen de maandag daarop dan hopelijk niet meer herinneren.

In “Ontsporing” vergelijkt Stapel z’n herhaaldelijke fraude met een drugsverslaving. Maar is dit wel de juiste vergelijking? Een drugsverslaafde heeft van tijd tot tijd nog een gelukzalige “high,” ook als z’n hele leven instort. Het boek beschrijft daarentegen hoe de voortdurende fraude tot niets dan chronische stress leidde. Toch bleef hij ermee doorgaan. Een begrijpelijke gang van zaken zou zijn dat je een beetje sjoemelt en dan beseft dat de stress die erop volgt maakt dat je zoiets misschien maar beter niet kunt herhalen.

In een vraaggesprek bij VPRO Boeken zegt Stapel iets dat lijnrecht indruist tegen de chronische gepakt-worden-vrees waarvan hij in z’n boek verhaalt. Elf minuten in het interview zegt hij dat hij de val nooit voelde aankomen, tenminste niet “op een hoog bewustzijnsniveau.” Toen ik dat hoorde, toen vroeg ik me af of de vergelijking met een drugsverslaving wellicht een poging was geweest om van de wetenschapsfraude een medisch probleem te maken en daarmee impliciet verminderde toerekeningsvatbaarheid te claimen.

Er zijn meer inconsistenties. De Levelt Commissie heeft met veel voormalige medewerkers van Stapel gesproken en schetst in z’n rapport een beeld dat niet overeenkomt met het joviale beeld van zichzelf dat Stapel in z’n boek schetst. Stapel was decaan en was als zodanig een machtig man aan de universiteit. Volgens medewerkers was hij er niet wars van z’n autoriteit te gebruiken om mensen de mond te snoeren. De commissie heeft Stapel geconfronteerd met wat de medewerkers zeiden. Stapel verklaarde zichzelf daarin niet te herkennen en omdat het te pijnlijk voor hem was wilde hij er toen verder liever over zwijgen.

Schön zwijgt en de motivatie en de gemoedstoestanden achter z’n fraude blijven derhalve een raadsel. Stapel heeft met z’n boek, de interviews en z’n medewerking aan het onderzoek van de Levelt Commissie een overstelpende hoeveelheid schuldbekentenis in de openbaarheid gebracht. Echter, door de tegenstrijdigheden blijven de beweegredenen achter de fraude uiteindelijk net zo raadselachtig als in het geval van Schön. Aan het eind van een interview bij PAUW verhaalt Stapel over een Havo-scholiere die hem thuis kwam interviewen. Het meisje maakte een profielwerkstuk over leugenaars en wilde graag verklaren wat Stapel dreef. Stapel en het meisje hadden een lang gesprek, maar ze kwamen er niet uit. “Die verklaring is er niet. Het is heel ingewikkeld,” zegt Stapel uiteindelijk ook zelf tegen Jeroen Pauw. Waarachtiger woorden heeft hij wellicht zelden gesproken.