Een alternatief voor de p-waarde
Verschenen in Columns en Opinie, Focus, Nieuws, Volkskrant

Met behulp van statistiek bepaalt een wetenschapper of zijn of haar resultaten het gevolg zijn van toeval: bij een p-waarde onder de 0,05 zijn de resultaten niet toevallig maar significant. Deze analysemethode, hypothesetoetsen, is een geaccepteerd instrument. Toch wordt wel eens te makkelijk geclaimd dat iets significant is. Een alternatieve methode met een ander type statistiek zou het volgens sommigen beter doen, schreef de Volkskrant onlangs. Of dat gaat helpen, is nog maar de vraag. Want het echte probleem zit niet in de gebruikte methode, maar in het onbegrip van de wetenschapper voor die methode.
De kern van het hypothesetoetsen is de kans dat het gevonden resultaat er zou zijn als gevolg van toeval (de p-waarde). Als deze waarde laag genoeg is, mag men aannemen dat er geen sprake is van toeval. Een voorbeeld: de kans dat je met een eerlijke dobbelsteen toevallig vijf keer een 6 gooit, is afgerond 0,00013. Die kans is klein genoeg om aan te nemen dat er iets uitzonderlijks aan de hand is: wellicht is er met de dobbelsteen gesjoemeld. Op eenzelfde manier analyseert men een psychologisch experiment: als zou blijken dat uitzonderlijk veel kinderen zich agressiever gedragen na het spelen van een gewelddadig computerspel, meer dan op basis van toeval te verwachten valt, trekt men de conclusie dat er wel een verband zal zijn.
Om te bepalen of de resultaten van een experiment significant zijn, gebruikt men al jaren de magische grens van 0,05. Dit houdt in dat de resultaten met een kans van 5% verwacht mogen worden als gevolg van toeval. Deze grens wordt door veel wetenschappers gebruikt als een onwrikbare waarheid: wie met een p-waarde van 0,049 komt mag een significant resultaat claimen, maar bij 0,051 niet meer.
Ter illustratie: de kans dat je twee keer achter elkaar een zes gooit met een eerlijke dobbelsteen is afgerond 0,028, en dus al voldoende klein om aan te nemen dat dit niet zomaar toevallig gebeurt (al is de steekproef van twee worpen wel wat klein om meteen conclusies te trekken). Dit betekent echter ook dat wie honderd keer een set van twee dobbelsteenworpen bekijkt, gemiddeld 2,8 keer twee zessen zal tegenkomen.
Voor wetenschappers is het helaas erg verleidelijk om net zo lang door te experimenteren tot ze iets significants hebben gevonden. Ze gooien spreekwoordelijk honderd keer twee worpen met een dobbelsteen, en rapporteren er één. Maar juist dan werkt die statistiek niet meer: het rapporteren van één significant resultaat in al die honderd pogingen is vrijwel betekenisloos.
Volgens sommigen (bijvoorbeeld Valen Johnson) zou een zogenaamde Bayesiaanse methode geschikter zijn voor de analyse van een experiment. Dat idee is niet nieuw: het kwam al ter sprake halverwege de vorige eeuw. Met de Bayesiaanse methode berekent men de kans dat twee verschillende theorieën waar zijn, bijvoorbeeld de theorie dat een dobbelsteen eerlijk is, en de theorie dat er met de dobbelsteen gesjoemeld is. Na een experiment bekijkt men vervolgens hoe deze kansen veranderen: vijf keer een 6 gooien zorgt ervoor dat de theorie van de verzwaarde dobbelsteen een stuk waarschijnlijker wordt.
Volgens Johnson is een groot voordeel van de Bayesiaanse benadering dat men direct kijkt naar de kansen op beide theorieën, en hoe die zich tot elkaar verhouden. Dit is volgens hem een veel natuurlijker manier van redeneren dan het hypothesetoetsen, waarbij men eerst moet aannemen dat iets het gevolg is van toeval, en pas als die kans klein genoeg is het toeval als aanname mag verwerpen om de alternatieve hypothese aan te nemen.
Filosofisch gezien is deze Bayesiaanse benadering een interessant alternatief. Maar het biedt geen oplossing voor de dagelijkse worsteling van een wetenschapper met zijn p-waarde. Want ook in de Bayesiaanse benadering moet er ergens een grens getrokken worden om te bepalen wanneer een theorie waarschijnlijk genoeg is, en die grens kan nog steeds worden misbruikt door een experiment zo lang te herhalen tot het onder die grens komt. Volgens Johnson zou een alternatieve theorie 25 tot 50 keer waarschijnlijker moeten zijn dan een toevallig resultaat. Deze grens correspondeert volgens hem met de wat strengere grens voor de p-waarde van 0,005. Maar net zoals bij het hypothesetoetsen heeft ook Johnson’s grenswaarde een hoog willekeurigheids-gehalte.
Daarnaast kampt de Bayesiaanse methode met een misschien wel veel groter probleem: er moet een heel scala aan kansen geschat worden. Want het bepalen van de kans op elk van de twee theoriën, wat de methode volgens Johnson zo natuurlijk maakt, vergt ook een grote mate van nauwkeurigheid wat betreft kansen die moeilijk te schatten zijn. Zo moet men bijvoorbeeld bepalen hoe groot de kans op elke theorie is, voorafgaand aan het experiment. Voor wie niet begrijpt hoe de p-waarde in elkaar steekt, zal het inschatten van al deze getallen zeker een zware klus worden.
Kortom, de Bayesiaanse methode is geen reëel alternatief voor het gebruikelijke hypothesetoetsen. Maar een beetje tornen aan de status van de p-waarde, dat lijkt me heel gezond.
28.04.2014
14:47
Beste Jan, je opmerking dat in de Bayesiaanse statistiek de waarnemingen voor zichzelf spreken begrijp ik niet helemaal.
Mijn punt over misbruik van de p-waarde is dat als je 20 trials doet en je rapporteert er maar 1, dat je dan te gemakkelijk een significant resultaat kunt claimen. Ik ben me er zeker van bewust dat dit geen fout is van de statistiek, maar van het verkeerd gebruik ervan: je zou natuurlijk de p-waarde moeten aanpassen aan het feit dat er 20 trials waren. Maar als je die andere 19 trials nergens in je artikel vermeldt, kom je er soms te makkelijk mee weg.
Met Bayes kun je toch nog steeds een groot aantal experimenten runnen en vervolgens degene die je het beste uitkomt rapporteren als alleenstaand resultaat? Nogmaals: je laat dan het feit dat er meerdere trials zijn gedaan helemaal weg.
26.04.2014
13:08
Behalve de onjuiste omschrijving van de p-waaarde bevat dit stuk nog een veel voorkomende misvatting: “en die grens kan nog steeds worden misbruikt door een experiment zo lang te herhalen tot het onder die grens komt. ” Dat is niet zo. Strikt genomen is dat ook bij de klassieke methode niet zo, want het is niet die andere stop-regel die fout is, maar het gebruik van de verkeerde “statistic” bij die stopregel. Gebruik je wel die juiste statistic, dan hoort daar ook een andere p-waarde bij die i.h.a. veel groter zal zijn.
In de Bayesiaanse statistiek doet zich dat probleem niet voor: de waarnemingen mogen voor zichzelf spreken zonder dat we hoeven te weten waarom de waarnemingen zijn gestopt. Doorgaan tot het gewenste resultaat is bereikt werkt dan ook niet.
09.12.2013
09:41
Interessant stuk! Het inschatten van de priors is volgens mij eigenlijk best makkelijk als je dit op een conservatieve wijze doet. Je kunt de range van variabelen gewoon instellen binnen alle waarden die theoretisch mogelijk zijn.
Bovendien is het wat mij betreft niet verkeerd dat je wetenschappers een beetje dwingt na te denken over waar ze nou eigenlijk mee bezig zijn.
06.12.2013
20:27
wil je kansen voor verschillende hypothesen met elkaar vergelijken, dan ga je er ook vanuit dat je de beste hypothesen hebt geformuleerd. Misschien is die dobbelsteen helemaal niet verzwaard, maar heeft hij op alle kanten een zes? Of misschien heeft degene die het experiment waarneemt wel telekinese-krachten. Als je je eigen hypothesen vergelijkt met de verkeerde alternatieven dan kan je toch nog op het verkeerde been worden gezet.
06.12.2013
12:34
@Casper, de fout is inmiddels gefixt (met dank aan een opmerkzame lezer). In dit geval was ik helaas iets te snel met een mooie formulering kiezen boven een correcte uitleg. Bedankt voor je reactie en fijn dat je het uiteindelijk toch nog met me eens bent!
06.12.2013
11:33
Dit had een interessant artikel kunnen zijn maar helaas gaat de auteur de mist in met haar definitie van p-waarde. In de tweede alinea omschrijft ze dit als “de kans dat een gevonden resultaat het gevolg is van toeval”. Dit is niet de definitie. Sterker nog, het is fout wat hier staat. Een correcte definitie is “de kans dat, als alleen toeval een rol speelt, het gevonden resultaat (of extremer) gevonden wordt”. Dat het stukje “of extremer” vergeten is, is nog niet zo erg. Maar in haar definitie, draait ze eigenlijk oorzaak en gevolg om. Het is niet P(H0 | data) (de kans op toeval, gegeven de data) waar het om gaat, maar P(data | H0) (de kans op de data gegeven toeval).
Dat zelfs iemand die gespecialiseerd is in wiskunde en logica een fout maakt rond p-waarden, illustreert wel dat p-waarden wellicht een te abstract en ingewikkeld concept zijn om zo breedgebruikt te worden.
De profeten van de Bayesiaanse school gaan er vaak aan voorbij dat bij hun methodologie ook vol zit met abstractheden en subjectieve grenzen. Op de definitie van p-waarde na, ben ik het dus volmondig eens met de conclusies van de auteur.