De hilariteit (en het nut) van slechte wetenschap
Verschenen in Columns en Opinie, Focus, Volkskrant

In zijn presentatie over de relatie tussen tuberculose en mobiele telefonie was de epidemioloog aangekomen bij de klinische trials die hij en zijn collega hadden uitgevoerd. Aan bod was het onderzoekssample: de groep mensen waarmee de trials waren uitgevoerd. Op het scherm verscheen een foto van één lachende jongeman. “Dit is ons sample. Zijn naam is João. Wij krijgen vaak het commentaar dat we met een te klein sample hebben gewerkt, maar João is in werkelijkheid best lang.”
Extraordinary evidence
Geen hond zou deze epidemioloog serieus nemen, en dat was dan ook niet de bedoeling. Zijn presentatie was deel van een onlangs gehouden symposium aan ons onderzoeksinstituut, waar slechte wetenschap expliciet welkom was: de data moest echt zijn, geen gesjoemel met de cijfertjes, maar in de interpretatie en de experimentele opzet mochten de wetenschappers alles doen wat normaal verboden was. João, het sample van n=1, was nog maar het begin: correlatie met causatie verwarren was erg populair, en er werd weinig moeite gedaan om extraordinary claims te verdedigen met extraordinary evidence.
Waarschijnlijk klinken die termen bekend: bij het opzetten en het interpreteren van wetenschappelijke studies zijn dit soort principes namelijk van groot belang. Een sample van 1 is een anekdote, geen data; correlatie is niet hetzelfde als causatie; en een buitengewone bewering moet ondersteund worden met buitengewoon bewijs om serieus genomen te worden. Op het symposium werden deze regels aan het publiek gegeven in de vorm van een bingokaart (hier te downloaden), waar daarnaast statistische trucs op stonden. De Wet van de Grote Aantallen bijvoorbeeld: die stelt dat hoe groter het aantal metingen is, hoe dichter het gemiddelde bij de daadwerkelijke waarheid zal liggen. Andersom geldt dat het gemiddelde van een klein aantal metingen behoorlijk kan afwijken van het ware gemiddelde, puur door toeval. Daarmee kan je heel effectief pseudowetenschap bedrijven.
Statistische trucs
Het doorzien van dit soort statistische trucs is niet altijd makkelijk. Als ergens een significante p-waarde bijstaat stopt men al gauw met kritisch denken, en dat is onterecht: als je maar genoeg data hebt, is er altijd wel ergens een significante correlatie te vinden. Puur toeval, zonder werkelijke betekenis. Zo vond een studie uit 2001 (dubbelblind, mét controlegroep) dat bidden voor patiënten een significante verkorting van het ziekenhuisbezoek opleverde, met gemiddeld lagere koorts. Klein detail: het gebed in kwestie vond pas 4 jaar na dato plaats. Dat klinkt als een bijzonder en raadselachtig resultaat, tot je beseft dat de onderzoekers een gigantische dataset aan parameters tot hun beschikking hadden. Deel de patiëntengegevens willekeurig in twee stapels, en er is altijd wel íets dat correleert met die verdeling. Ook op ons symposium werden de meest bizarre correlaties tevoorschijn getoverd uit medische gegevens: in het Chinese jaar van de Slang heeft u bijvoorbeeld minder kans op infecties met bacteriën die beginnen met een klinker.
Slechte wetenschap
Kortom, wetenschapsprincipes met voeten treden kan tot hilarische presentaties leiden. Natuurlijk zit hier een diepere laag, want net zoals niet ieder grappig wetenschapsverhaal onzin hoeft te zijn, is niet iedere onzinnige wetenschap grappig, en kan het herkennen ervan van levensbelang zijn. Een veel te klein sample was zo bijvoorbeeld (deels) verantwoordelijk voor het begin van de mythe dat vaccinaties autisme veroorzaken. Een fout met (nog steeds) grote gevolgen, die voorkomen hadden kunnen worden als, bijvoorbeeld, journalisten van het eerste uur het artikel in kwestie daadwerkelijk kritisch onder de loep hadden gelegd, of de juiste vragen hadden gesteld op de persconferentie.
In oktober vorig jaar verscheen in de Economist een stuk over problemen in de wetenschap. Publicatiedruk maar ook gebrekkige controle leidt tot slechte wetenschap, waaronder niet-reproduceerbaar onderzoek, en vertekende meta-analyses omdat negatieve resultaten niet worden gepubliceerd. Ook wees het artikel op slechte standaarden waar het de experimentele opzet en interpretatie betreft. Dit is op zijn zachtst gezegd zorgwekkend. Er wordt blijkbaar te weinig nagedacht over de aard van slechte wetenschap, en over wat goede wetenschap goed maakt; de principes die iedere wetenschapper ooit geleerd heeft liggen stof te vergaren in ladenkastjes op universiteiten over de hele wereld.
Ja, journalisten, politici, artsen, en eigenlijk iedereen met een hartslag moet de principes van goede wetenschap kennen. Maar vooral wetenschappers zelf moeten eerlijk kunnen zijn over de bingovakjes die hun onderzoek aankruist, want alleen hiermee is een accurate waardering van hun werk mogelijk. En niet alle principes zijn onder alle omstandigheden te waarborgen: een controlegroep samenstellen en randomiseren kán niet bij alle onderzoeken, en soms is het simpelweg niet mogelijk om een groter sample te verzamelen dan 1. Het bestaat. Een kruisje op de bingokaart betekent dus ook niet automatisch dat we hier met slechte wetenschap van doen hebben. Maar dat het kruisje er staat moet wel worden erkend. En er moet worden gepraat: over slechte wetenschap, over goede wetenschap; over het verschil tussen de twee.
Nepsymposium
Een nepsymposium met bingokaarten is natuurlijk niet de enige manier om dit gesprek op gang te brengen, maar dat het werkt was duidelijk: een klein sample zoals João zou overal met een bulderende zaal begroet moeten worden. Verder heb ik zelf sinds het symposium buitengewoon veel moeite gekregen met het lezen van papers en het bezoeken van seminars, want voortdurend gaat mijn bingo-alarm af. Zelfs nu ik dit schrijf besef ik dat dit slechts één symposium was, en ik slechts één persoon. Wie helpt ons aan een groter sample? Eenzelfde evenement in Nederland is zo opgezet.
07.03.2014
23:34
Laten we niet om de hete brei heendraaien en voorop stellen dat als het gaat over >slechte wetenschap<, primair te denken valt aan dierproeven. Dus bijvoorbeeld aan proeven met vissen en vlinders, duizendpoten en vliegen.
De rest is franje.
22.02.2014
16:51
Dag Barbara,
Een goed initiatief dat symposium en een mooi artikel van jou daarover. Bij Ockham denk ik altijd aan zijn scheermes. Als leidraad kan zijn scheermes-benadering niet voldoende gehanteerd worden. Ockham brengt samen met Popper een flinke dosis nuchterheid (terug) in de wetenschap, en dat is altijd prima. Als je zo symposium in NL houdt, dan zou ik zeker ook het vraagstuk van “Evidence based policy” erbij betrekken.
11.02.2014
07:37
Leuk stuk. Behalve dat wetenschap hier lijkt samen te vallen met kwantitatieve benaderingen.
08.02.2014
19:06
Beste Barbara,
Wellicht is het ook meer een filosofische kwestie, waarbij iets van twee kanten benaderd wordt.
Als ik het heb over een regelmatigheid, dan beschouw ik dit als een model met een voorspellende waarde dat bepaalde eigenschappen en situaties van materie beschrijft. En die voorspellende waarde kan extreem hoog zijn.
Als je het over een wet hebt, dan lijkt het meer iets wat de mens oplegt aan de materie, en waar die materie zich maar aan te houden heeft.
In het laatste geval sluit je alle twijfel uit, en dat is volgens mij minder goede wetenschap.
08.02.2014
18:13
@Richard: vandaar mijn opmerking over ‘binnen een context’. Maar dat er contextuele voorwaarden kunnen gesteld aan een wet lijkt mij niet een argument om dan maar meteen het woord ‘wet’ overboord te kieperen — zeker als het gaat om wetten die geldig zijn voor ons hele zonnestelsel.
08.02.2014
18:01
Beste Barbara,
Een regelmatigheid zie ik inderdaad als minder sterk dan een wet, en ik zal uitleggen waarom.
Stel dat ik stroop in een rond vormpje giet, en het in de vriezer stop, zodat het een rond, solide balletje wordt. Als ik dit balletje stroop van een schuine helling laat rollen, dan zijn er bepaalde wetten/regelmatigheden, die dit gedrag goed beschrijven. Als ik het balletje vervolgens tot kamertemperatuur laat opwarmen, en het weer van de schuine helling giet, dan gelden er andere wetten/regelmatigheden, die dit gedrag beter beschrijven dan in het eerste experiment.
En zo vloeien volgens mij de regelmatigheden over van de ene situatie naar de andere, simpelweg omdat er meer warmte energie in de stroop zit. (Of je zou ook kunnen zeggen dat de ene wet meer toepasselijk wordt dan de andere.)
Als je zegt dat een wet keihard is, kun je dit in filosofische zin eigenlijk alleen zeggen, als je in het hele universum nooit een tegenspraak gevonden hebt. Maar ervaringen die wij hebben zijn grotendeels alleen maar in ons eigen zonnestelsel. Als voorbeeld, het melkwegstelseldraaiingsprobleem
Ik weet er niet genoeg vanaf, maar (onder andere) dit probleem doet wetenschappers vermoeden, dat het grootste gedeelte van het universum uit donkere energie, en donkere materie moet bestaan. En dat zou kunnen. Maar het zou volgens mij ook kunnen, dat de wetenschappelijke regelmatigheden die wij hier hebben, niet overal even goed toepasbaar zijn in het universum. En in een dergelijke situatie kan het volgens mij voordelig zijn, om eerder te denken in termen van regelmatigheden, in plaats van in starre wetten.
08.02.2014
15:23
@Roger: Probeer het nog eens? Misschien dat de site van Occam’s Beard uit de lucht was — hier werkt de link wel!
@Richard: Ik weet niet of ik dat de grenzen van wetenschap wil noemen. Het feit dat wetenschap vaak (!) “the best we can do [op dit moment]” is, en niet “het ultieme perfecte experiment” geeft m.i. niet aan dat de grenzen bereikt zijn, maar er moet wel eerlijk gepraat worden over welke aannames gemaakt zijn, of welke bias mogelijk bestaat in het onderzoek. Of iets een wet genoemd kan worden of een regelmatigheid (ik neem aan dat je een ‘regelmatigheid’ minder sterk vindt dan een ‘wet’?) lijkt me afhankelijk van de wet/regelmatigheid in kwestie. Veel natuurwetten hebben ook een context, maar binnen die context zijn het toch echt keiharde regels.
08.02.2014
10:02
Beste Barbara,
Enerzijds gaat je mooie stuk over goede en slechte wetenschap, maar anderzijds gaat het volgens mij ook over de grenzen van de wetenschap.
Je schreef: “ [..] een controlegroep samenstellen en randomiseren kán niet bij alle onderzoeken, en soms is het simpelweg niet mogelijk om een groter sample te verzamelen dan 1. Het bestaat.”
Dit zijn dus situaties waarbij de wetenschap haar grenzen tegenkomt.
Maar ook op andere manieren komt de wetenschap grenzen tegen.
Bijvoorbeeld: In de natuurkunde, komen regelmatigheden voor, die extreem betrouwbaar zijn, terwijl dit bij levende dieren dikwijls minder het geval is. Zo is de voorspelbaarheid van een vallende steen beter dan de voorspelbaarheid van wat een dier gaat doen, en dit is weer meer voorspelbaar dan wat mensen gaan doen.
En ook is reductionisme een krachtig middel in de wetenschap, maar als je dit tot in het extreme doorvoert, dan is er alleen maar een wereld van materie en energie, die wel op elkaar reageert, maar die verder volstrekt betekenisloos is.
En als niet-wetenschapper vind ik in het algemeen ‘regelmatigheden in de natuur’ een betere term dan ‘natuurwetten’, terwijl de meeste wetenschappers waarschijnlijk de voorkeur aan dat laatste woord geven.
08.02.2014
06:53
De link naar BS Bingo werkt niet; ik zou het overzichtje graag zien. ga vooral door met dit fascinerende thema!
07.02.2014
11:06
Geweldig, wat een goed idee dat symposium!