Back

Artikel

Home

Wanneer gaan we eens echte kennis produceren? Pleidooi voor een wetenschappelijke Wikipedia

12 okt 2015

Onderwerpen: Onderwijs en wetenschap

Wetenschappers hebben er een handje van om snel tevreden te zijn met hun werk, zolang het maar nieuw is en statistisch significant. Onderzoek is sterk vertekend in de richting van het rapporteren van bewijs dat in overeenstemming is met de theorie. Het falsificatieprincipe van Popper is de facto in de prullenmand beland. Arjen van Witteloostuijn houdt een vlammend pleidooi om die publicatiepraktijk de veranderen. Een onderzoeker moet voortdurend pogingen ondernemen om haar of zijn eigen ongelijk te bewijzen. Hij stelt voor om een wetenschappelijke Wikipedia te maken waarin studies dynamischer, kritischer en transparanter worden bekeken dan tot op heden het geval is.

Zelfreflectie voor wetenschappers

Wetenschap is een gemeenschap van mensen van de homo sapiens species: tweevoeters met de capaciteit om aan zelfreflectie te doen. Dit impliceert dat de wetenschap als gemeenschap onderhevig is aan alle gebruikelijke patronen van menselijk gedrag, inclusief een veelheid aan vertekeningen op het individuele en collectieve niveau (Kahneman, 2011; Shleifer, 2012). Bekende voorbeelden op het individuele niveau zijn hoogmoed, voorkeur voor bevestiging en drang naar het nieuwe (of het omgekeerde: angst voor het nieuwe). Dat betekent bijvoorbeeld dat “When an experiment is not blinded, the chances are that the experimenters will see what they ‘should’ see” (The Economist, 2013). Met vereende krachten leiden deze vertekeningen tot type I- en type II-fouten in het beoordelen van onderzoek, zowel dat van onszelf als dat van anderen. Zonder adequate correctiemechanismen is het resultaat dat gepubliceerd onderzoek sterk vertekend zal zijn in de richting van het rapporteren van bewijs dat in overeenstemming is met de theorie.

‘Peer review’ als correctiemechanisme

De eerste verdedigingslinie van de wetenschap wordt gevormd door processen van beoordeling op het microniveau van individuele studies. Helaas: het beoordelingsproces – al dan niet dubbelblind – is alles behalve foutloos; integendeel, dat proces staat ook bol van de vertekeningen (voor een kritische discussie binnen de managementdiscipline zie bijvoorbeeld Bedeian, 2003; Starbuck, 2003; Tsui & Hollenbeck, 2009). Dat is geen verrassing omdat het beoordelingsproces in handen is van exemplaren van diezelfde homo sapiens species die niet kunnen ontsnappen aan al die vertekeningen die hiervoor zijn aangestipt (plus een hele reeks andere). Met name in de geneeskunde is uitvoerig aangetoond dat de huidige beoordelingspraktijken falen als de effectieve filtermechanismen die zij geacht worden te zijn (zie bijvoorbeeld Jefferson et al., 2002). Neem de onthullende studie van Callaham en McCulloch (2011). Op basis van een steekproef van 14.808 beoordelingen door 1.499 referenten gewaardeerd door 84 redacteuren over een 14-jarige periode komen zij tot de conclusie dat de kwaliteit gestaag daalt over de tijd, waarbij het tempo van deze daling positief is gecorreleerd met de ervaring van de beoordelaar. Deze bevinding is weerspiegeld in het resultaat dat referenten, gemiddeld genomen, niet in staat blijken te zijn om fatale fouten uit manuscripten te filteren, hetgeen het gevaar van publicatie van valse positieven (“false positives”) versterkt (Callaham & Tercier, 2007; Schroter et al., 2008).

Collectieve correctiemechanismen

Vanwege de vertekeningen die onvermijdelijk zijn verbonden met de werking van het menselijke brein, zou de wetenschappelijke gemeenschap – als collectief – een reeks van correctieprincipes op macroniveau moeten handhaven als tweede verdedigingslinie. Hiervan is vermoedelijk het Popperiaanse falsificatieprincipe veruit de bekendste. De buitengewoon invloedrijke wetenschapsfilosofie van Karl Popper (1959) stoelt op het argument dat wetenschappelijke vooruitgang tot stand komt in een wereld waarin een onderzoeker voortdurend pogingen onderneemt om haar of zijn eigen ongelijk te bewijzen: wij, als onderzoekers, moeten telkens op zoek gaan naar bewijzen dat we het aan het verkeerde eind hebben. Als we bewijs vinden dat onze theorie inderdaad niet correct is, kunnen we verder werken aan de ontwikkeling van een nieuwe theorie die beter bij de data past. We moeten de nieuwe generaties van jonge onderzoekers daarom leren dat zij blij in plaats van teleurgesteld moeten zijn indien zij hun hypothesen niet kunnen bevestigen. Deze zoektocht naar falsificatie is uitermate belangrijk omdat, in de woorden van Ioannidis (2012: 646), “Efficient and unbiased replication mechanisms are essential for maintaining high levels of scientific credibility.” Handhaving van het falsificatieprincipe vergt een traditie van replicatiestudies in combinatie met de publicatie van niet-significante en contraresultaten, of zogenaamde nullen (“nulls”) en negatieven (“negatives”), gesteund door systematische meta-analyses.

Publicatiepraktijken
De huidige publicatiepraktijken in de bedrijfskundige onderzoekgemeenschap zijn echter overmatig anti-Popperiaans, wat de productie van wetenschappelijke vooruitgang fundamenteel frustreert (Bettis, 2012; Hubbard & Vetter, 1996). Niemand is werkelijk geïnteresseerd in de replicatie van wat dan ook, en meta-analyses zijn beschamend zeldzaam. Slechts een kleine fractie van de gepubliceerde studies heeft van doen met replicaties of meta-analyses. Daar komt bij dat tijdschriftredacteuren, -beoordelaars en -lezers geen belangstelling hebben voor nullen en negatieven. Deze tweeledige handicap – het replicatiedefect en de publicatievertekening – betekent een serieuze crisis omdat het essentiële Popperiaanse falsificatieprincipe de facto is gedeponeerd in de vuilnisbak van de wetenschappelijke gemeenschap. Wij, als collectief, schenden basale wetenschappelijke principes door:

(1) voornamelijk positieve bevindingen te publiceren (dat wil zeggen: resultaten die onze hypothesen ondersteunen); en

(2) ons zelden te verlagen tot replicatiestudies (vanwege onze blinde obsessie met nieuwigheid).

Achter de façade van al die zogenaamde nieuwe ontdekkingen gaat een veelheid van valse positieven schuil, evenals een lange reeks dubieuze onderzoekpraktijken (John et al., 2012) die worden ingezet om al die vermeende doorbraken en nieuwigheden te produceren. Zo is HARKing (= Hypothesizing After the Results are Known) een veelvoorkomende praktijk.

Steun het manifest

In een recent manifest, met de titel “What Happened to Popperian Falsification?”, beargumenteer ik uitgebreid wat ik denk dat fout gaat, waarom dat het geval is, en wat we eraan kunnen doen. Dit manifest is vooral, maar zeker niet exclusief, gericht aan de adres van de bedrijfskundige onderzoekgemeenschap. Het is echter overduidelijk dat de bedrijfskunde niet de enige discipline is die aan dit kwalijke euvel lijdt. Recente schandalen in de geneeskunde, natuurwetenschappen en psychologie getuigen daarvan. Als u, als lezer, mijn zorgen deelt, dan zou ik het bijzonder op prijs stellen indien u uw steun expliciet maakt door de petitie te tekenen.

Met behulp van deze petitie is het misschien mogelijk een hervormingsbeweging te mobiliseren; ook kan zodoende een begin worden gemaakt met een uitwisseling van ideeën op zoek naar oplossingen. Dat het anders moet, is wel duidelijk. Replicatiestudies en meta-analyses moeten normaal worden. Data en analyseprotocollen moeten publiek beschikbaar worden gesteld. Pre-registratie van onderzoekontwerpen moet worden gefaciliteerd. Significatie alleen moet niet langer heilig zijn. Et cetera. Op allerlei plaatsen en in veel disciplines wordt daaraan gewerkt, maar dat zet nog veel te weinig zoden aan de dijk.

Verander de publicatiepraktijk

De bestaande publicatiepraktijk kan worden veranderd. Die bestaande praktijk is geënt op archaïsche gewoonten en ouderwetse technologieën. Ik pleit voor een nieuwe en dynamische manier van publiceren, beoordelen en discussiëren, voorlopig Scientific Wikipedia gedoopt. Studies worden direct geplaatst indien zij aan minimumvereisten voldoen, zonder verder commentaar. Daarna publiceren niet-anonieme referenten commentaren. Dat kan aanleiding zijn de oorspronkelijke publicatie te herzien. Bijbehorend materiaal, inclusief databestanden en –protocollen, zijn doorklikbaar beschikbaar. Bij elke publicatie loopt automatisch een teller mee met het aantal “downloads” en citaties. Open toegang is gegarandeerd. Een onderzoekteam voert regelmatig replicaties uit. Enzovoorts. Mijn hoop is dat door deze dialoog te initiëren, een aantal van de maatregelen die ik in mijn manifest voorstel inderdaad ook geïmplementeerd zal worden; en dat andere, mogelijk veel effectievere maatregelen, in de loop van de tijd daaraan zullen worden toegevoegd. Het is hoog tijd om die mooie en wonderlijke wereld van het (bedrijfskundig) onderzoek flink op de schop te nemen. Collectieve actie is geboden.

Referenties:

Bedeian, A. G. (2003). The Manuscript Review Process: The proper roles of authors, referees, and editors, Journal of Management Inquiry, 12: 331-338.

Bettis, R. A. (2012). The Search for Asterisks: Comprised statistical tests and flawed theories, Strategic Management Journal, 33: 108-113.

Callaham, M. and C. McCulloch (2011). Longitudinal Trends in the Performance of Scientific Peer Reviewers, Annals of Emergency Medicine, 57: 141-148.

Callaham, M. L. and J. Tercier (2007). The Relationship of Previous Training and Experience of Journal Peer Reviewers to Subsequent Review Quality, PLoS Medicine, 4: 0032-0040.

Hubbard, R. and D. E. Vetter (1996). An Empirical Comparison of Published Replication Research in Accounting, Economics, Finance, Management, andMarketing, Journal of Business Research, 35: 153-164.

Ioannidis, J. P. A. (2012). Why Science Is Not Necessarily Self-Correcting, Perspectives on Psychological Science, 7: 645-654.

Jefferson, T., P. Alderson, E. Wagner, and F. Davidoff (2002). Effects of Editorial Peer Review: A systematic review, Journal of the American Medical Association, 287 (21): 1-4.

John, L. K., G. Loewenstein, and D. Prelec (2012). Measuring the Prevalence of Questionable Research Practices with Incentives for Truth-Telling, Psychological Science, 23: 524-532.

Kahneman, D. (2011). Thinking, Fast and Slow, New York: Farrar, Straus, and Giroux.\

Popper, K. (1959). The Logic of Scientific Discovery. Oxford: Routledge.

Schroter, S., N. Black, S., Evans, F., Godlee, L., Osorio, L., and R. Smith (2008). What Errors Do Peer Reviewers Detect, and Does Training Improve theirAbility to Detect Them?, Journal of the Royal Society of Medicine, 101: 507-514.

Shleifer, A. (2012). Psychologists at the Gate: A review of Daniel Kahneman’s Thinking, Fast and Slow, Journal of Economic Literature, 50: 1080-1091.

Starbuck, W. H. (2003). Turning Lemons into Lemonade: Where is the value in peer reviews?, Journal of Management Inquiry, 12: 344-351.

The Economist (2013). Trouble at the Lab, (accessed on July 30 2015).

Tsui, A. S. and J. R. Hollenbeck (2009). Successful Authors and Effective Reviewers Balancing Supply and Demand in the Organizational Sciences, Organizational Research Methods, 12: 259-275.

Arjen van Witteloostuijn
VU Amsterdam

Gerelateerde artikelen

Volledig artikel