Kiezen en Delen

In de recente golf wetenschappelijke replicatieprojecten waren vorige week de gedragseconomen aan de beurt. Een studie in het blad Science rapporteerde 18 pogingen tot replicatie van toppublicaties in dat vakgebied. Daarvan bleken 11 studies repliceerbaar, met nog een aantal in een schemergebied. Reden voor het weekblad The Economist om victorie te kraaien voor de economische wetenschap, terwijl de Volkskrant juist over een “aframmeling’’ spreekt. Is het glas half leeg of half vol?

Onder mijn collega-gedragseconomen is de stemming licht positief, ondanks het feit dat volgens de officiële statistiek ruwweg 95% van de studies repliceerbaar zouden moeten zijn. Eén van de redenen is dat eigenlijk niemand een resultaat van 95% had verwacht. Dat komt voornamelijk door de zogenaamde publication bias, de neiging van tijdschriften om spectaculaire resultaten te publiceren, waardoor “nulresultaten” vaak in de kast blijven liggen. Een tweede reden is dat economen er in ieder geval beter vanaf komen dan de psychologen, waar het replicatiepercentage in een soortgelijke studie rond de 39% lag (met nog ongeveer 30% in een soort schemergebied).

Je zou dus denken dat in ieder geval de psychologen zich achter de oren krabben, maar ook daar zijn de meningen verdeeld. Een aantal toppsychologen, waaronder David Gilbert trekken juist de replicatiestudies in twijfel, met het argument dat er subtiele verschillen waren tussen de replicaties en de originelen, zogenaamde “infedelities”, die voor mislukte replicaties zorgden. In sommige gevallen is dat punt geldig, bijvoorbeeld voor een experiment dat het effect van positieve emoties bestudeerde door mensen een Robin Williams video te laten zien. De replicatie mislukte, wellicht door het feit dat Williams in de tussentijd was overleden.

Het infedelities-argument stuit op haar beurt weer op sterke weerstand, bijvoorbeeld van Andrew Gelman, statisticus en bekend criticaster van onderzoeksmethoden in de sociale wetenschap. Volgens Gelman bewijst het slechts dat gedragswetenschappers, met name psychologen, vaak veel te subtiele effecten onderzoeken. Een paar van zijn favoriete voorbeelden zijn het effect van menstruatie op stemgedrag en het effect van het zien van subliminale smileys op je mening over immigranten.

Als de onderliggende effecten zo fragiel zijn laten replicaties (en meer solide statistiek) slechts zien wat iemand met een beetje gezond verstand ook had kunnen weten: namelijk dat ze worden ondergesneeuwd door omgevingsfactoren. De (retorische) vraag is in dat geval wat het nut van dergelijke studies. Ook replicatiestudies hebben in zo’n context maar beperkte waarde. Ze kunnen bijdragen aan het vroegtijdig opgeven van vergezochte onderzoeksgebieden, maar hebben geen directe invloed op de jacht naar “leuke” resultaten. De oplossing voor dat probleem ligt in betere theorievorming en beter onderzoeksontwerp.

Terug naar het half gevulde glas. Het de mens eigen om aandacht te besteden aan spectaculaire resultaten. Van de publicatiebias komen we dus nooit helemaal af, en een 95% replicatiepercentage is een illusie. Tegelijkertijd geven de replicatiestudies genoeg stof tot reflectie. Een mogelijke reden dat gedragseconomen een beter cijfer halen dan de psychologen is dat zij in de afgelopen decennia hun (sceptische) collega-economen moesten overtuigen, een debat dat strenge methodologische eisen opleverde. Dat geeft dus hoop op een goede uitkomst van de huidige replicatiediscussie.