De magie van de p-waarde
Verschenen in Columns en Opinie, EOS Magazine, Focus, Nieuws, Volkskrant
3 reacties
Statistiek wordt overschat. Twee onderzoeken presenteerden onlangs tegenovergestelde conclusies over de bijwerkingen van een medicijn, en met wat handige statistiek kun je zelfs aantonen dat je leeftijd omlaag gaat van het luisteren naar een Beatles liedje. Waarom geloven we dan nog zo heilig in statistiek? Laten we ons blinde vertrouwen in de zogenaamde significante resultaten opzij zetten, en met een kritischer blik bekijken wat voor wetenschap er achter vandaan komt.
De Wall Street Journal berichtte onlangs over de volgende tegenspraak: een geneesmiddel tegen osteoporose zou volgens één onderzoeksgroep een verhoogde kans op slokdarmkanker geven, en volgens een andere groep juist niet. Beide onderzoeken waren correct uitgevoerd, en maakten zelfs gebruik van dezelfde database met patiëntgegevens. Er waren verschillende statistische methodes gebruikt, maar in beide gevallen was er een significant resultaat gevonden.
Dit soort tegenstrijdigheden komt wel vaker voor in de wetenschap. Verschillende statistische methodes kunnen verschillende resultaten geven, en ook verschillende selecties van data kunnen tot uiteenlopende resultaten leiden. Op statistiek kun je dus niet zomaar blind vertrouwen, óók niet als de resultaten significant zijn: met een p-waarde onder de magische grens van 0,05.
Want wat betekent die p-waarde eigenlijk precies? Een onderzoeker die een experiment uitvoert, heeft altijd kans dat zijn resultaten slechts het gevolg van toevalligheden zijn. Bijvoorbeeld bij het testen van een geneesmiddel: misschien dat patiënten zich toevallig beter gingen voelen, zonder dat dat iets met de werking van het medicijn te maken had. Pas als de onderzoeker aannemelijk maakt dat het echt niet zomaar toeval was, geloven we in de werking van het medicijn en noemen we het gevonden resultaat significant.
Significante verjongingskuur
Hoe kleiner de p-waarde, hoe kleiner de kans dat er sprake is van toevalligheid, en groter dus de geloofwaardigheid van het onderzoek. Zo’n check op significantie werkt echter alleen als de onderzoeksgegevens zinnig zijn, en op een objectieve manier verzameld. Bij elk onderzoek zouden we dus verder moeten kijken dan de p-waarde groot is: we zouden veel kritischer moeten zijn op de achterliggende data, en de manier waarop die verkregen is.
Precies dit punt maakten Joseph Simmons, Leif Nelson en Uri Simonsohn afgelopen najaar al in een prachtig artikel met de boodschap: met wat creatieve statistiek is alles wel significant te maken. Als voorbeeld tonen ze onder andere aan dat mensen jonger worden door te luisteren naar het liedje When I’m Sixty-Four van de Beatles. Let op: niet jonger voelen, maar letterlijk jonger worden.
Simmons en collega’s lieten 20 studenten luisteren naar When I’m Sixty-Four, of naar Kalimba, een liedje dat gratis bij Windows 7 wordt geleverd. Daarna noteerden de studenten hun geboortedatum, en de leeftijd van hun vader. Uit het onderzoek bleek dat de studenten na het luisteren van het Beatles nummer tenminste anderhalf jaar jonger waren, te zien aan hun geboortedata. Met een p-waarde van 0,04, een significant resultaat dus.
De mazen van de statistiek
Simmons en collega’s benadrukken dat de opzet van hun onderzoek volledig voldoet aan de huidige academische standaard. Waarbij ze die standaard omwille van hun argument zo ver mogelijk hebben opgerekt. Door bijvoorbeeld achteraf pas te bepalen hoeveel proefpersonen nodig waren en welke variabelen interessant, beïnvloedden ze in dit geval bewust hun resultaten. Zo verzamelden ze bijvoorbeeld allerlei extra gegevens van de studenten waaronder de leeftijd van de vader, maar ook leeftijd van de moeder, politieke voorkeur, de wortel van 100, en of ze het eens waren met de uitspraak ‘computers zijn ingewikkelde apparaten’.
Al deze extra gegevens konden aangewend worden om te laten zien dat de groep die naar het Beatles liedje luisterde echt vergelijkbaar was met de Kalimba-groep. Want daar ging het natuurlijk om: statistiek bedrijf je door twee groepen tegen elkaar af te zetten. In dit geval zouden die aan het begin nog dezelfde gemiddelde leeftijd hebben gehad, maar na het luisteren van de nummers niet meer. Dat de groepen inderdaad vergelijkbaar waren, ‘garandeerden’ onderzoekers door te controleren dat de gemiddelde leeftijd van de vaders in beide groepen hetzelfde was. Was deze garantie met de leeftijd van de vaders niet gevonden, dan hadden ze altijd nog een van de andere variabelen kunnen gebruiken.
Verder besloten de onderzoekers te werken met series van ongeveer tien proefpersonen. Na elke serie zou worden vastgesteld of met een van de variabelen een significant resultaat was bereikt. In werkelijkheid hadden er 34 studenten meegedaan aan het onderzoek, maar was de gewenste significantie al bij 20 gevonden.
De moraal van hun verhaal: wie eerst zoveel mogelijk data gaat verzamelen en vervolgens achteraf gaat zoeken naar significantie, vindt altijd wel wat. Daarom beschrijven Simmons en consorten een zestal regels dat elke onderzoeker volgens hen zou moeten volgen om zulke valse positieven te voorkomen. Zo bepleiten ze bijvoorbeeld dat bij elk experiment van te voren vastgesteld moet worden welke data verzameld gaat worden, en hoeveel. De volledige dataset zou dan openbaar gemaakt moeten worden in de publicatie, inclusief alle gemeten variabelen. Zodat we als lezer kunnen inzien waarom we niet hoeven te dromen van verjongingskuren met Beatles-nummers.


Schrijf een reactie
Terry Vrijenhoek


Favoriete stukken
12.05.2012
14:26
Beste Charlotte,
Dank je voor je reactie. Ik dacht wel dat je wel weet weet hoe het zit, alleen vond ik de focus een beetje riskant, en mn je gechargeerde (dat snapte ik) opmerking ‘statistiek wordt overschat’. Iets meer uitleg over hoe statistiek wel nuttig kan zijn had me daarom zinnig geleken, in plaats van of naast meer koren op de molen van mensen die denken dat statistiek ‘ook maar een mening’ is.
Ik ben het met je eens dat er een belangrijke rol is voor reviewers, maar het lijkt erop dat die vaak met liefde de statistieke analyses overslaan op het moment dat ze hun kritische blik over een manuscript laten gaan.
12.05.2012
12:08
Beste Judith,
ik ben het helemaal met je eens dat statistiek veel inzicht kan verschaffen voor iemand die weet wat hij er aan heeft. Maar met mijn (wat gechargeerde) uitspraak ‘statistiek wordt overschat’, doel ik vooral op het blinde geloof in statistiek (door mensen die geen experts zijn), zonder verder naar de achtergrond te kijken. Statistiek is tenslotte ook maar een model, waarbij je altijd moet kijken naar wat je precies meet, en waarmee.
Ik richt mij dus vooral tot media en onderzoekers die met resultaten omgaan alsof ze helemaal onbetwistbaar zijn, zolang de p-waarde maar klein genoeg is.
En zoals jij ook zegt: er zijn veel onderzoekers die alleen maar op zoek zijn naar een positief resultaat. Volgens Simmons et al is de kans dat een onderzoeker onterecht een hypothese aanneemt (false positive) wel 60%.
Van te voren vaststellen wat je gaat meten en hoe was natuurlijk altijd al ‘zoals het hoort’. Het artikel van Simmons et al is vooral bedoeld om dat nog eens te benadrukken en in een aantal concrete regels samen te vatten. Die regels gelden dan ook voor de reviewer van een tijdschrift: die zou moeten doorvragen naar wat er allemaal onderzocht is (want wie ziet er anders aan een artikel dat er wat variabelen weggelaten zijn uit de resultaten?).
11.05.2012
20:41
Hoi Charlotte.
Hoewel je goed aan geeft wat er mis kan gaan als er verkeerde keuzes worden gemaakt, denk ik dat ‘statistiek wordt overschat’ geen juiste conclusie of samenvatting is.
Statistiek kan veel inzicht verschaffen, mits de juiste methoden worden gebruikt. En dat is waar het heel vaak mis gaat: veel onderzoekers weten er niet genoeg van af en doen maar wat.
De suggestie om vantevoren vast te stellen welke data verzameld moeten worden (en welke statistische methoden daarop toe te passen!) is niet nieuw, maar gewoon ‘hoe het hoort’. Mensen die weten wat ze moeten doen qua statistiek, weten de uitkomsten vervolgens ook op waarde te schatten, zonder het te overinterpreteren, of naar hun hand te zetten.
Helaas is dit niet altijd de praktijk. Vele onderzoekers verliezen objectiviteit uit het oog zodra er een aantrekkelijke p-waarde op duikt (‘positieve’ resultaten publiceren helaas nog altijd gemakkelijker dan ‘negatieve’), nog afgezien van of ze de juiste statistische technieken hebben gebruikt.
Het probleem is vooral dat veel wetenschappers niet genoeg van statistiek weten maar toch ermee aan de slag gaan. Beter zou zijn als ze erkennen dat ze het niet weten en iemand inschakelen die het wel snapt. Wanneer juist toegepast, is statistiek erg informatief tav de relevantie van je data. Verkeerde statistische analyse kan leiden tot het trekken van verkeerde conclusies en dat lijkt me erg zonde van al het gedane werk.