Kiezen en Delen

Het Open Science Collaboration (OSC) project heeft tot doel wetenschappelijke resultaten te repliceren. Afgelopen week publiceerde het tijdschrift Science de OSC-replicatiepogingen van 100 studies in drie toptijdschriften in de psychologie. De resultaten zijn slecht nieuws voor de houdbaarheid van veel wetenschappelijke publicaties.

In een eerdere column beschreef ik de ongerustheid van veel wetenschappers dat “[K]leine steekproeven en wetenschappelijk gesjoemel ertoe leiden dat veel experimentele resultaten berusten op statistische toevalstreffers. Eén belangrijke reden is dat een positief effect van een bepaald medicijn, onderwijsmethode of subsidie veel spannender en verrassender is dan geen effect. Onderzoek met zulke resultaten komt daarom in veel betere tijdschriften – en in de populair-wetenschappelijke bladen. Onderzoekers gebruiken daarom, soms onbewust, allerlei technieken om de effecten groter te laten lijken, of rapporteren alleen de ‘gelukte’ studies, een fenomeen genaamd publication-bias.”

Om de gevolgen van dit fenomeen te onderzoeken werkt het OSC samen met de auteurs van de originele artikelen en verschillende replicatie-teams. In het Science artikel van vorige week gaat het daarbij alleen om replicaties van experimenten in de cognitieve en sociale psychologie. De OSC-auteurs hanteren verschillende criteria om te bepalen welke resultaten repliceerbaar zijn, waaronder de grootte van het gevonden effect, en de zogenaamde p-value, de statistische kans dat de gevonden patronen het resultaat zijn van toeval.

De resultaten liegen er niet om. De grootte van het effect in de replicaties is gemiddeld minder dan de helft van dat van de originele studies. Daarnaast valt 53% van de effecten in de replicatiestudies buiten het 95% vertrouwensinterval van het originele resultaat, wat eigenlijk slechts in 5% van de gevallen zou moeten gebeuren. Terwijl 97% van de effecten in de originele studies een p-value van minder dan 5% had, was dat bij de replicatiestudies slechts bij 36% het geval.

Alles bij elkaar concluderen de OSC auteurs dat zij 39% van de originele effecten konden repliceren, en dat “[a] large proportion of replications produced weaker evidence for the original finding, despite using materials provided by the original authors, review in advance for methodological fidelity, and high statistical power to detect the original effect sizes.”

Natuurlijk zijn de resultaten van de replicaties niet definitief, en ook niet “beter” dan de originele resultaten. Als het origineel en replica bij elkaar worden gevoegd, blijkt 68% van de studies nog steeds statistisch bewijs voor het originele resultaat te geven. Het valt ook nog te bezien in hoeverre deze resultaten representatief zijn voor andere wetenschappelijke disciplines. Desalniettemin is een gemiddeld replicatiepercentage van 39% reden voor een serieuze wetenschappelijke discussie over de effecten van publicatiedruk en de handhaving van wetenschappelijke standaarden. Vooralsnog geldt een herhaling van het advies in mijn eerdere column: caveat lector.