bullshitbingo

In zijn presentatie over de relatie tussen tuberculose en mobiele telefonie was de epidemioloog aangekomen bij de klinische trials die hij en zijn collega hadden uitgevoerd. Aan bod was het onderzoekssample: de groep mensen waarmee de trials waren uitgevoerd. Op het scherm verscheen een foto van één lachende jongeman. “Dit is ons sample. Zijn naam is João. Wij krijgen vaak het commentaar dat we met een te klein sample hebben gewerkt, maar João is in werkelijkheid best lang.”

Extraordinary evidence
Geen hond zou deze epidemioloog serieus nemen, en dat was dan ook niet de bedoeling. Zijn presentatie was deel van een onlangs gehouden symposium aan ons onderzoeksinstituut, waar slechte wetenschap expliciet welkom was: de data moest echt zijn, geen gesjoemel met de cijfertjes, maar in de interpretatie en de experimentele opzet mochten de wetenschappers alles doen wat normaal verboden was. João, het sample van n=1, was nog maar het begin: correlatie met causatie verwarren was erg populair, en er werd weinig moeite gedaan om extraordinary claims te verdedigen met extraordinary evidence.

Waarschijnlijk klinken die termen bekend: bij het opzetten en het interpreteren van wetenschappelijke studies zijn dit soort principes namelijk van groot belang. Een sample van 1 is een anekdote, geen data; correlatie is niet hetzelfde als causatie; en een buitengewone bewering moet ondersteund worden met buitengewoon bewijs om serieus genomen te worden. Op het symposium werden deze regels aan het publiek gegeven in de vorm van een bingokaart (hier te downloaden), waar daarnaast statistische trucs op stonden. De Wet van de Grote Aantallen bijvoorbeeld: die stelt dat hoe groter het aantal metingen is, hoe dichter het gemiddelde bij de daadwerkelijke waarheid zal liggen. Andersom geldt dat het gemiddelde van een klein aantal metingen behoorlijk kan afwijken van het ware gemiddelde, puur door toeval. Daarmee kan je heel effectief pseudowetenschap bedrijven.

Statistische trucs
Het doorzien van dit soort statistische trucs is niet altijd makkelijk. Als ergens een significante p-waarde bijstaat stopt men al gauw met kritisch denken, en dat is onterecht: als je maar genoeg data hebt, is er altijd wel ergens een significante correlatie te vinden. Puur toeval, zonder werkelijke betekenis. Zo vond een studie uit 2001 (dubbelblind, mét controlegroep) dat bidden voor patiënten een significante verkorting van het ziekenhuisbezoek opleverde, met gemiddeld lagere koorts. Klein detail: het gebed in kwestie vond pas 4 jaar na dato plaats. Dat klinkt als een bijzonder en raadselachtig resultaat, tot je beseft dat de onderzoekers een gigantische dataset aan parameters tot hun beschikking hadden. Deel de patiëntengegevens willekeurig in twee stapels, en er is altijd wel íets dat correleert met die verdeling. Ook op ons symposium werden de meest bizarre correlaties tevoorschijn getoverd uit medische gegevens: in het Chinese jaar van de Slang heeft u bijvoorbeeld minder kans op infecties met bacteriën die beginnen met een klinker.

Slechte wetenschap

Kortom, wetenschapsprincipes met voeten treden kan tot hilarische presentaties leiden. Natuurlijk zit hier een diepere laag, want net zoals niet ieder grappig wetenschapsverhaal onzin hoeft te zijn, is niet iedere onzinnige wetenschap grappig, en kan het herkennen ervan van levensbelang zijn. Een veel te klein sample was zo bijvoorbeeld (deels) verantwoordelijk voor het begin van de mythe dat vaccinaties autisme veroorzaken. Een fout met (nog steeds) grote gevolgen, die voorkomen hadden kunnen worden als, bijvoorbeeld, journalisten van het eerste uur het artikel in kwestie daadwerkelijk kritisch onder de loep hadden gelegd, of de juiste vragen hadden gesteld op de persconferentie.

In oktober vorig jaar verscheen in de Economist een stuk over problemen in de wetenschap. Publicatiedruk maar ook gebrekkige controle leidt tot slechte wetenschap, waaronder niet-reproduceerbaar onderzoek, en vertekende meta-analyses omdat negatieve resultaten niet worden gepubliceerd. Ook wees het artikel op slechte standaarden waar het de experimentele opzet en interpretatie betreft. Dit is op zijn zachtst gezegd zorgwekkend. Er wordt blijkbaar te weinig nagedacht over de aard van slechte wetenschap, en over wat goede wetenschap goed maakt; de principes die iedere wetenschapper ooit geleerd heeft liggen stof te vergaren in ladenkastjes op universiteiten over de hele wereld.

Ja, journalisten, politici, artsen, en eigenlijk iedereen met een hartslag moet de principes van goede wetenschap kennen. Maar vooral wetenschappers zelf moeten eerlijk kunnen zijn over de bingovakjes die hun onderzoek aankruist, want alleen hiermee is een accurate waardering van hun werk mogelijk. En niet alle principes zijn onder alle omstandigheden te waarborgen: een controlegroep samenstellen en randomiseren kán niet bij alle onderzoeken, en soms is het simpelweg niet mogelijk om een groter sample te verzamelen dan 1. Het bestaat. Een kruisje op de bingokaart betekent dus ook niet automatisch dat we hier met slechte wetenschap van doen hebben. Maar dat het kruisje er staat moet wel worden erkend. En er moet worden gepraat: over slechte wetenschap, over goede wetenschap; over het verschil tussen de twee.

Nepsymposium
Een nepsymposium met bingokaarten is natuurlijk niet de enige manier om dit gesprek op gang te brengen, maar dat het werkt was duidelijk: een klein sample zoals João zou overal met een bulderende zaal begroet moeten worden. Verder heb ik zelf sinds het symposium buitengewoon veel moeite gekregen met het lezen van papers en het bezoeken van seminars, want voortdurend gaat mijn bingo-alarm af. Zelfs nu ik dit schrijf besef ik dat dit slechts één symposium was, en ik slechts één persoon. Wie helpt ons aan een groter sample? Eenzelfde evenement in Nederland is zo opgezet.