Replicatiecrisis in de psychologie

De replicatiecrisis, noemen psychologen het. Veel effecten waarvan men dacht dat ze beproefd en bewezen waren, blijken bij nader inzien een stevig wetenschappelijk fundament te missen. Studies waarin een ouder experiment herhaald wordt, blijven geregeld zonder positief resultaat. Deze crisis kwam vorige week hoog op de wetenschapsagenda terecht na een brief van Nobelprijswinnaar Daniel Kahneman. In die brief maakt hij zich zorgen over het sociaal-psychologische onderzoek naar priming: het effect dat mensen die onbewust met bijvoorbeeld een stereotype in aanraking komen zich vervolgens ook een beetje naar dat stereotype gaan gedragen. In een bekend experiment kregen proefpersonen tijdens een taalopdracht woorden te lezen die met ouderdom te maken hebben (bingo, bejaard, pensioen). Daarna liepen ze – net als de gemiddelde senior – wat trager door de gang.

Dat dit resultaat in een vervolgstudie uit januari 2012 niet werd gevonden, zorgde voor opschudding binnen de psychologie. Dat Diederik Stapel ook frauduleuze priming-studies op zijn naam had staan, maakte het niet beter. Kahneman is bang dat vanwege deze onrust en de bijbehorende imagoschade het hele onderzoeksgebied in diskrediet raakt. Onterecht, in zijn ogen, want hij twijfelt er niet aan dat priming een reëel effect is. ‘Over het algemeen ben ik niet bezorgd over de validiteit van het priming-effect’, mailt hij. ‘Priming speelde een belangrijke rol in een boek dat ik vorig jaar publiceerde, en ik ga het deel dat ik de titel “De wonderen der priming” gaf niet veranderen. Maar ik zou me beter voelen wanneer de huidige crisis over is.’ En dat kan maar op één manier: er moet snel worden overgegaan tot grondige en onafhankelijke replicatie van de eerder gevonden priming-effecten, zodat voor eens en voor altijd kan worden vastgesteld of het effect echt is.

Dat is gemakkelijker gezegd dan gedaan. Psychologiehoogleraar Ap Dijksterhuis van de Radboud Universiteit deed in het verleden zelf priming-experimenten en legt uit dat repliceren een kunst op zich is. Priming-effecten zijn doorgaans klein, vertelt hij, dus moet je een experiment heel zorgvuldig opzetten om zo’n effect te vinden. Letterlijk de opzet van een ander lab overnemen werkt vaak niet, zeker niet als dat lab in een ander land staat. Een prime (bijvoorbeeld een stereotype) kan nou eenmaal voor elke onderzoeksgroep en nationaliteit net iets anders betekenen. Daarom kiezen de meeste psychologen er niet voor om een studie te kopiëren, maar om een vergelijkbaar experiment te ontwerpen dat gebruik maakt van dezelfde uitgangspunten en aannames maar is toegespitst op eigen lab, land en proefpersonen. ‘Het is inderdaad moeilijk gebleken om dat experiment naar ouderdom en loopsnelheid met dezelfde resultaten te repliceren’, zegt Dijksterhuis. ‘Maar er zijn wel meerdere studies waaruit bleek dat omgaan met bejaarden zorgt voor een langzamere reactiesnelheid.’

Al met al maakt Dijksterhuis zich niet zo’n zorgen over priming. Er zijn meer dan tweehonderd studies die priming-effecten vinden, benadrukt hij, en veel van die effecten lijken tamelijk robuust. Dat mensen die met presteren geprimed zijn beter hun best doen, bijvoorbeeld. Of dat mensen die geprimed zijn met ‘professor’ daarna hoger scoren op een Triviant-achtige kennistest, en mensen die geprimed worden met ‘blondje’ of ‘secretaresse’ lager. ‘Dat effect heb ik aangetoond, en het is daarna een keer of zes gerepliceerd. En inderdaad, één keertje niet, hoorde ik onlangs via via. Maar dat is echt geen ramp, hoor, als er een keertje iets niet gerepliceerd wordt. Dat kan allerlei oorzaken hebben. Omdat de effecten zo subtiel zijn, kan er gemakkelijk iets fout gaan.’ Dat is ook wat Kahneman denkt. ‘Replicaties zijn vaak geen klonen. Er zijn mutaties, en soms zijn die fataal. Het is erg eenvoudig voor een onderzoeker om met de beste intenties toch te falen om een resultaat te repliceren dat de originele onderzoeker in zijn of haar eigen lab wel op betrouwbare wijze kan reproduceren.’

Deze replicatieproblemen zijn binnen de psychologie niet uitzonderlijk, vertelt Jelte Wicherts, gedragswetenschappelijk methodoloog aan de Universiteit van Tilburg. ‘Er wordt vaak gezocht naar subtiele effecten, en dan ook nog in kleine experimenten, waardoor die effecten nog moeilijker te vinden zijn.’ Priming is volgens hem typisch zo’n onderzoeksgebied waar methodologen met scepsis naar kijken. ‘Kleine steekproeven, hip en mediageniek onderwerp, en doordat er weinig letterlijk gerepliceerd wordt is er weinig eenheid in welke variabelen er precies gemeten worden. Dat laatste geeft onderzoekers veel vrijheid om net zolang met de data te spelen tot het gewenste resultaat eruit komt. Dat zijn dé risicofactoren voor een fout-positieve uitkomst, dus dat je een effect vindt dat er eigenlijk niet is.’

Die risicofactoren ziet Wicherts ook buiten het priming-onderzoek terugkomen. In een paper die hij volgende maand samen met zijn collega’s Marjan Bakker en Annette van Dijk publiceert in het vakblad Perspectives on Psychological Science, stelt hij vast dat het een strategische keus van wetenschappers is om een aantal kleine studies te doen, in plaats van één grote. ‘Vakbladen kijken alleen naar de effecten, niet naar de steekproefgroottes.’ Wicherts geeft als voorbeeld een onderzoek uit 2006 dat liet zien dat mensen die zich schuldig voelen meer geneigd zijn om – heel Bijbels – hun handen te wassen. Daar was toentertijd veel ophef over: het werd gepubliceerd in Science en breed uitgemeten in de media. Maar toen een ander wetenschapsteam het experiment repliceerde met meer proefpersonen vonden ze geen effect. Science wilde dit vervolgonderzoek echter niet publiceren: geen effect, dus geen interesse. Wicherts: ‘Dat beleid zie je bij heel veel vakbladen. Onderzoekers trekken hun conclusies: als je veel wilt publiceren, moet je dus veel experimenten doen. Studies met een positief effect – al dan niet nadat je hebt zitten winkelen in de data – publiceer je, studies zonder stop je in de bureaula.’

Deze praktijk maakt het heel moeilijk om te zeggen welke psychologische effecten toeval zijn, en welke echt. Naast priming is bijvoorbeeld ook volgens Wicherts ook het onderzoek naar onbewuste beslissingen dringend toe aan het betere repliceerwerk. Ook dit is een onderzoeksgebied waar Dijksterhuis in heeft gewerkt. Hij schreef er uitgebreid over in zijn bestseller Het slimme onbewuste. Het principe is simpel, legt hij uit. Je legt mensen een keuzedilemma voor, bijvoorbeeld tussen twee auto’s, of twee appartementen. De ene helft van de mensen mogen rustig over hun opties nadenken, de andere helft wordt afgeleid zodat niet hun bewustzijn maar hun onbewuste met de informatie over de keuze-opties aan de slag gaat. Het idee is dat deze laatste groep de betere keuze maakt. ‘Dat effect blijkt inderdaad niet zo robuust te zijn’, geeft Dijksterhuis toe. ‘Je vindt het ongeveer de helft van de experimenten, en in de andere helft vind je geen verschil.’

Erg verontrust is hij wederom niet. ‘Ik vind het niet zo’n slechte score, zeker niet voor een gebied dat pas een paar jaar oud is. Als je subtiele effecten onderzoekt heb je tijd nodig. Het zou me overigens niets verbazen als je ook in andere gebieden binnen de psychologie qua repliceerbaarheid een 50-50-verdeling vindt’, zegt hij. Dijksterhuis’ schatting komt aardig overeen met de tweede conclusie die Bakker, Van Dijk en Wicherts in hun paper trekken: in bijna de helft van de psychologische deelgebieden zijn er problemen. Het trio keek naar recente of veelgeciteerde meta-analyses van uiteenlopende onderwerpen, van de cognitieve ontwikkeling van jonge kinderen tot de manier waarop een psychotherapeut zijn patiënten bejegent. Wicherts: ‘In bijna de helft van de analyses waren er aanwijzingen dat de zaken te mooi waren voorgesteld. Niet alleen in de sociale psychologie, maar ook in de ontwikkelingspsychologie, de evolutiepsychologie, de klinische psychologie…’

Het meest opvallende deelgebied dat Wicherts en co over de knie legden was het invloedrijke implicit association test-onderzoek naar racisme. In deze IAT-studies wordt geprobeerd om met een computerprogramma het onbewuste racisme van mensen bloot te leggen. Proefpersonen moeten zo snel en zo accuraat mogelijk begrippen met elkaar associëren, bijvoorbeeld blank of zwart met gevaar of veiligheid. Wanneer iemand gevaar gemakkelijker met zwarte mensen associeert dan met blanke, zou dat een teken van racisme zijn. Maar nu zijn er twijfels: het zou ook kunnen dat een stereotype het gemakkelijker maakt om twee begrippen snel met elkaar in verband te brengen, zonder dat dit verder iets zegt over vooroordelen of gedrag. ‘En ook hier zie je weer: heel veel kleine experimenten, maar geen grote. En veel variabelen, zodat de onderzoekers in de data bezig kunnen blijven tot ze het gewenste resultaat hebben’, zegt Wicherts. ‘We zien alleen maar de mooie verhalen.’

Kahneman is blij met mensen als Wicherts, die dit soort praktijken onder de aandacht brengen. ‘Er komen strakkere procedures in het psychologisch onderzoek, waardoor het aantal onrepliceerbare resultaten zal dalen. Dat is goed voor iedereen’, mailt hij. En ook Dijksterhuis is verheugd dat mensen als Wicherts steeds serieuzer worden genomen. ‘Toen de zaak Stapel begon te spelen, is er een vergrootglas gelegd op ons vakgebied. Zodra een resultaat niet gerepliceerd kon worden, zat er gelijk een luchtje aan. Dat vind ik onterecht. We deden ook voor Stapel al aan zelfreflectie. Sociaal psychologen hadden nogal eens de neiging om stevige conclusies te trekken op basis van mager bewijs. Ik ook, dat geef ik toe. Het was een beetje de bedrijfscultuur. Dat hadden we minder moeten doen. Het is in de wetenschap toch vaak: drie stappen vooruit, twee stappen achteruit. Dus ook in de psychologie.’