dobbelstenen

Met behulp van statistiek bepaalt een wetenschapper of zijn of haar resultaten het gevolg zijn van toeval: bij een p-waarde onder de 0,05 zijn de resultaten niet toevallig maar significant. Deze analysemethode, hypothesetoetsen, is een geaccepteerd instrument. Toch wordt wel eens te makkelijk geclaimd dat iets significant is. Een alternatieve methode met een ander type statistiek zou het volgens sommigen beter doen, schreef de Volkskrant onlangs. Of dat gaat helpen, is nog maar de vraag. Want het echte probleem zit niet in de gebruikte methode, maar in het onbegrip van de wetenschapper voor die methode.

De kern van het hypothesetoetsen is de kans dat het gevonden resultaat er zou zijn als gevolg van toeval (de p-waarde). Als deze waarde laag genoeg is, mag men aannemen dat er geen sprake is van toeval. Een voorbeeld: de kans dat je met een eerlijke dobbelsteen toevallig vijf keer een 6 gooit, is afgerond 0,00013. Die kans is klein genoeg om aan te nemen dat er iets uitzonderlijks aan de hand is: wellicht is er met de dobbelsteen gesjoemeld. Op eenzelfde manier analyseert men een psychologisch experiment: als zou blijken dat uitzonderlijk veel kinderen zich agressiever gedragen na het spelen van een gewelddadig computerspel, meer dan op basis van toeval te verwachten valt, trekt men de conclusie dat er wel een verband zal zijn.

Om te bepalen of de resultaten van een experiment significant zijn, gebruikt men al jaren de magische grens van 0,05. Dit houdt in dat de resultaten met een kans van 5% verwacht mogen worden als gevolg van toeval. Deze grens wordt door veel wetenschappers gebruikt als een onwrikbare waarheid: wie met een p-waarde van 0,049 komt mag een significant resultaat claimen, maar bij 0,051 niet meer.

Ter illustratie: de kans dat je twee keer achter elkaar een zes gooit met een eerlijke dobbelsteen is afgerond 0,028, en dus al voldoende klein om aan te nemen dat dit niet zomaar toevallig gebeurt (al is de steekproef van twee worpen wel wat klein om meteen conclusies te trekken). Dit betekent echter ook dat wie honderd keer een set van twee dobbelsteenworpen bekijkt, gemiddeld 2,8 keer twee zessen zal tegenkomen.

Voor wetenschappers is het helaas erg verleidelijk om net zo lang door te experimenteren tot ze iets significants hebben gevonden. Ze gooien spreekwoordelijk honderd keer twee worpen met een dobbelsteen, en rapporteren er één. Maar juist dan werkt die statistiek niet meer: het rapporteren van één significant resultaat in al die honderd pogingen is vrijwel betekenisloos.

Volgens sommigen (bijvoorbeeld Valen Johnson) zou een zogenaamde Bayesiaanse methode geschikter zijn voor de analyse van een experiment. Dat idee is niet nieuw: het kwam al ter sprake halverwege de vorige eeuw. Met de Bayesiaanse methode berekent men de kans dat twee verschillende theorieën waar zijn, bijvoorbeeld de theorie dat een dobbelsteen eerlijk is, en de theorie dat er met de dobbelsteen gesjoemeld is. Na een experiment bekijkt men vervolgens hoe deze kansen veranderen: vijf keer een 6 gooien zorgt ervoor dat de theorie van de verzwaarde dobbelsteen een stuk waarschijnlijker wordt.

Volgens Johnson is een groot voordeel van de Bayesiaanse benadering dat men direct kijkt naar de kansen op beide theorieën, en hoe die zich tot elkaar verhouden. Dit is volgens hem een veel natuurlijker manier van redeneren dan het hypothesetoetsen, waarbij men eerst moet aannemen dat iets het gevolg is van toeval, en pas als die kans klein genoeg is het toeval als aanname mag verwerpen om de alternatieve hypothese aan te nemen.

Filosofisch gezien is deze Bayesiaanse benadering een interessant alternatief. Maar het biedt geen oplossing voor de dagelijkse worsteling van een wetenschapper met zijn p-waarde. Want ook in de Bayesiaanse benadering moet er ergens een grens getrokken worden om te bepalen wanneer een theorie waarschijnlijk genoeg is, en die grens kan nog steeds worden misbruikt door een experiment zo lang te herhalen tot het onder die grens komt. Volgens Johnson zou een alternatieve theorie 25 tot 50 keer waarschijnlijker moeten zijn dan een toevallig resultaat. Deze grens correspondeert volgens hem met de wat strengere grens voor de p-waarde van 0,005. Maar net zoals bij het hypothesetoetsen heeft ook Johnson’s grenswaarde een hoog willekeurigheids-gehalte.

Daarnaast kampt de Bayesiaanse methode met een misschien wel veel groter probleem: er moet een heel scala aan kansen geschat worden. Want het bepalen van de kans op elk van de twee theoriën, wat de methode volgens Johnson zo natuurlijk maakt, vergt ook een grote mate van nauwkeurigheid wat betreft kansen die moeilijk te schatten zijn. Zo moet men bijvoorbeeld bepalen hoe groot de kans op elke theorie is, voorafgaand aan het experiment. Voor wie niet begrijpt hoe de p-waarde in elkaar steekt, zal het inschatten van al deze getallen zeker een zware klus worden.

Kortom, de Bayesiaanse methode is geen reëel alternatief voor het gebruikelijke hypothesetoetsen. Maar een beetje tornen aan de status van de p-waarde, dat lijkt me heel gezond.