
Het Open Science Collaboration (OSC) project heeft tot doel wetenschappelijke resultaten te repliceren. Afgelopen week publiceerde het tijdschrift Science de OSC-replicatiepogingen van 100 studies in drie toptijdschriften in de psychologie. De resultaten zijn slecht nieuws voor de houdbaarheid van veel wetenschappelijke publicaties.
In een eerdere column beschreef ik de ongerustheid van veel wetenschappers dat “[K]leine steekproeven en wetenschappelijk gesjoemel ertoe leiden dat veel experimentele resultaten berusten op statistische toevalstreffers. Eén belangrijke reden is dat een positief effect van een bepaald medicijn, onderwijsmethode of subsidie veel spannender en verrassender is dan geen effect. Onderzoek met zulke resultaten komt daarom in veel betere tijdschriften – en in de populair-wetenschappelijke bladen. Onderzoekers gebruiken daarom, soms onbewust, allerlei technieken om de effecten groter te laten lijken, of rapporteren alleen de ‘gelukte’ studies, een fenomeen genaamd publication-bias.”
Om de gevolgen van dit fenomeen te onderzoeken werkt het OSC samen met de auteurs van de originele artikelen en verschillende replicatie-teams. In het Science artikel van vorige week gaat het daarbij alleen om replicaties van experimenten in de cognitieve en sociale psychologie. De OSC-auteurs hanteren verschillende criteria om te bepalen welke resultaten repliceerbaar zijn, waaronder de grootte van het gevonden effect, en de zogenaamde p-value, de statistische kans dat de gevonden patronen het resultaat zijn van toeval.
De resultaten liegen er niet om. De grootte van het effect in de replicaties is gemiddeld minder dan de helft van dat van de originele studies. Daarnaast valt 53% van de effecten in de replicatiestudies buiten het 95% vertrouwensinterval van het originele resultaat, wat eigenlijk slechts in 5% van de gevallen zou moeten gebeuren. Terwijl 97% van de effecten in de originele studies een p-value van minder dan 5% had, was dat bij de replicatiestudies slechts bij 36% het geval.
Alles bij elkaar concluderen de OSC auteurs dat zij 39% van de originele effecten konden repliceren, en dat “[a] large proportion of replications produced weaker evidence for the original finding, despite using materials provided by the original authors, review in advance for methodological fidelity, and high statistical power to detect the original effect sizes.”
Natuurlijk zijn de resultaten van de replicaties niet definitief, en ook niet “beter” dan de originele resultaten. Als het origineel en replica bij elkaar worden gevoegd, blijkt 68% van de studies nog steeds statistisch bewijs voor het originele resultaat te geven. Het valt ook nog te bezien in hoeverre deze resultaten representatief zijn voor andere wetenschappelijke disciplines. Desalniettemin is een gemiddeld replicatiepercentage van 39% reden voor een serieuze wetenschappelijke discussie over de effecten van publicatiedruk en de handhaving van wetenschappelijke standaarden. Vooralsnog geldt een herhaling van het advies in mijn eerdere column: caveat lector.
11.09.2015
11:55
Een voorbeeld van tijdgeest en IQ tests is er natuurlijk wel.
.
Vroegah, dacht men dat het zgn Flynn effect waarbij per generatie er een iq toename van een standaard deviatie plaatsvindt, kwam door de tests.
.
DE Idee dat de mensheid verfijnder aan het nadenken is geslagen vergeleken met vroegah is redelijk recent.
.
Zie hiervoor Flynn zelf op een TED talk.
.
Het grootste verschil is gelegen in het gemak waarmee mensen tegenwoordig hypothetische situaties kunnen indenken.
.
Vroegah, was een hypothetische situatie niet opgenomen in het dagelijks leven.
Nu met alle verbondenheid aan illusoire groepen juist overal.
.
Dat heeft een verandering van denken met zich meegebracht.
.
Bijvoorbeeld voor zaken als IQ tests is het verschil tussen een boer en een stedeling vrijwel geheel genivelleerd.
.
Een moderne boer is high tech.
Vroegah was een moderne boer in bezit van een tractor.
.
Aldus een zeer eenvoudige verklaring voor de toename in mogelijkheden in conceptueel denken.
.
NB: Joël van der Weele;
Voor het verschil tussen nu en toen zijn toch in het verleden nu juist longitudinale studies ontworpen ?
05.09.2015
18:52
Dat verbaast mij wel.
Want net zoals er voor een gemiddeld IQ het getal 100 is, zou je toch kunnen verwachten, dat er in de psychologie een bepaalde meting is voor wat iemand vandaag of 50 of 100 jaar geleden als normaal ervoer.
En de verandering daarvan is wat ik bedoel.
Of worden er in dit opzicht in de psychologie en sociologie helemaal geen referentiekaders gebruikt?
05.09.2015
17:21
Hoi Richard
dat lijkt me niet. Ik zou ook niet weten hoe je dat zou moeten doen.
Joël
05.09.2015
14:06
Beste Joël,
Soms hoor je iemand wel eens zeggen: er is niets zo veranderlijk als de mens.
En toen ik dit stuk las, moest ik daar aan denken, want als deze experimenten al wat ouder zijn, en niet bijzonder fundamenteel, zou het ook kunnen dat de verandering (deels) te wijten is aan de tijdgeest.
Dus ik vroeg me af, in hoeverre is hier rekening mee gehouden, bij de herhalingen van deze experimenten?
04.09.2015
13:18
‘Standaardmodel’ houdt in dat (veel) onderzoek begint met experimenten op ratten. Daar zijn psychologen berucht om.
-
Een ander punt is dat in geen enkele publicatie het aantal en de soorten proefdieren genoemd of verantwoord worden. Niet verplicht, niet uit eigener beweging. Zo zijn onze manieren niet.
Er wordt hooguit losjes gesproken over ratten, muizen, enz. Vandaar dat u noch ik precieze cijfers kunnen geven over aantallen proefdieren die in enig psych.lab misbruikt en gedood worden.
04.09.2015
12:14
“Is de rat het standaardmodel”. Ik weet niet wat je daarmee bedoelt, maar betekent dat dat er op grote schaal ratten worden doodgemaakt in cognitieve experimenten? Ik dacht dat ze vooral door doolhoven moeten lopen etc.
04.09.2015
11:52
In de cognitieve psychologie is de rat het standaardmodel. Om maar iets te noemen.
04.09.2015
10:17
Hoi Barend,
als je op de derde link klikt zul je zien dat ik in mijn eerdere column het artikel van Ioannidis bespreek, n.a.v. het “tienjarig bestaan” van dit stuk.
Ik ben het niet met je eens dat psychologen net zo ver zijn als 10 jaar geleden. In het pre-Stapel tijdperk waren er geen replicatieprojecten, en was er veel minder aandacht voor problemen met wetenschappelijke integriteit. Je ziet ook dat publicaties zoals die in Science tot veel discussie leiden, en tot eisen voor meer transparantie bij tijdschriften, grotere steekproeven e.d.
Ik heb het niet gecontroleerd, maar het zou me verbazen als er bij onderzoeken in de cognitieve en sociale pscyhologie proefdieren gedood werden, laat staan “ontelbare”.
03.09.2015
23:53
Weet Joël van der Weele soms ook niet dat Ioannidis dit al liet zien in 2005? ‘Why Most Published Research Findings Are False’. 10 Jaar later zijn de psychologen nog net zo ver. Voorspelling: over 10 jaar zal het niet beter zijn.
-
Het zou allemaal nog tot daaraan toe zijn – men moet wat te doen hebben – als hiervoor niet ontelbare aantallen proefdieren misbruikt en gedood werden. Dubbele aantallen (replicatie), dieren èn reservedieren.