Kan vi lita på forskningen?

Av Anna Dreber Almenberg | 16 mars 2021

Eventuella åsikter och slutsatser i texten är skribentens egna.

I korthet

Tänk om livet vore så enkelt att en snabb förändring i hur man sitter eller står förändrar hormoner och beteenden? Denna kittlande tanke är kanske huvudförklaringen till att presentationen om power posing är världens näst mest visade TED talk.

Presentationen bygger på en studie som publicerades år 2010 där 42 deltagare slumpades till att antingen hålla en så kallat ”hög power pose”, där deltagaren står eller sitter expansivt i några minuter, eller en så kallat ”låg power pose” där deltagaren i stället står eller sitter kontraktivt, nästan som att man kramar sig själv. En hög power pose rapporteras inte bara påverka känslor utan ha biologiska effekter – ökat testosteron och minskat kortisol (stresshormon), samt även ökat finansiellt risktagande och ökad känsla av makt. Dessa fantastiska resultat – dramatiska effekter från en minimalistisk intervention – är nog förklaringen till att power posing blev ett fenomen som dyker upp i allt från tv-serier till ledarskapsutbildningar.

Problemet är bara att resultaten inte håller, och kanske ännu värre – att detta inte är något unikt.

Att göra om gamla experiment

När vi (Eva Ranehill vid Göteborgs universitet, Magnus Johannesson vid Handelshögskolan i Stockholm, med flera och jag) försökte upprepa resultaten genom att göra en så kallad replikation där vi använder liknande material och metoder, men på 200 nya deltagare, hittade vi väldigt lite stöd för de ursprungliga resultaten.

Det finns många orsaker till att det publiceras falska vetenskapliga resultat.

Dessa forskningresultat var med stor sannolikhet så kallat falska positiva resultat – forskarna trodde att de hade funnit intressanta verkliga effekter när power posing i själva verket inte leder till något. Trots att det nu har gått sex år sen vår misslyckade replikation publicerades så återkommer jag ofta till detta exempel – men det finns ingen anledning till att tro att detta är något unikt. Det är snarare en del av en större replikationskris där det har visat sig att väldigt många resultat inte går att påvisa när studierna upprepas på nya och större urval.

Det finns många orsaker till att det publiceras falska vetenskapliga resultat. Forskare kan fabricera data – helt från grunden eller ändra resultat i insamlade data, och det finns tyvärr många kända fall (och säkert många okända!). Men även utan bedragare finns det många skäl till att resultat kan vara otillförlitliga och inte upprepningsbara, det vill säga inte visar samma sak när vi gör om studien.

Det vetenskapliga idealet för att förstå orsak och verkan är att göra randomiserade kontrollerade studier där deltagare slumpas till någon slags behandling (till exempel en medicin) eller kontroll (till exempel sockerpiller).

Hellre publicera positiva samband

Även i denna bästa av kausala världar finns det risk för två sorters falska resultat – falska positiva resultat där vi felaktigt tror att vår behandling har en effekt – och falska negativa resultat där vi felaktigt tror att vår behandling inte har en effekt. Vi försöker minimera sannolikheten för båda dessa fel, men givet den publikationsbias som ofta observeras (där många vetenskapliga tidskrifter hellre publicerar positiva resultat än nollresultat) finns det anledningar till att fokusera på det förra felet som förklaring till replikationskrisen och hur det kan komma sig att det publiceras så många falska resultat.

Nu blir det lite tekniskt, men häng med: Inom många fält säger vi att en skillnad är statistisk signifikant om vi har ett så kallat p-värde mindre än 0,05 från det statistiska testet som till exempel jämför genomsnitten mellan två grupper. P-värdet är sannolikheten att vi skulle observera något som är minst så extremt som det vi observerar om nollhypotesen vore sann – och ju lägre p-värdet är, desto lägre falsk positiv sannolikhet. Det vill säga ju lägre sannolikhet att vi tror att vi har funnit en effekt av behandlingen på ett utfall när ingenting i själva verket händer. Problemet är p<0,05 inte alltid betyder mindre än 5 procent falsk positiv sannolikhet – det beror på hur p<0,05 togs fram.

Om forskaren fiskar genom att korrelera en mängd olika variabler med varandra, kommer slumpen till slut ge oss några statistiskt signifikanta samband. Om forskaren väljer att endast presentera dessa resultat är det uppenbart att det ger en felaktig bild av kunskapsläget och att resultaten är otillförlitliga.

Om forskaren genomför ett randomiserat experiment med en kontrollgrupp och en behandlingsgrupp och väljer att samla in flera utfallsvariabler och kontrollvariabler går det att ”p-hacka” sig fram till resultat med p<0,05 genom att testa flera olika utfall, göra olika sorters statistiska tester (till exempel på genomsnittet, medianen eller nåt annat) eller ta bort så kallade outliers – förr eller senare blir något resultat statistiskt signifikant och då kan det bli resultatet som presenteras för världen.

Incitament till att hitta positiva samband

Incitamenten till detta är stora – om man går från att ha ett p=0,051 resultat till att ha ett p=0,049 resultat så går man från ett nollresultat till ett positivt (statistiskt signifikant) resultat – där det senare är betydligt enklare att publicera eftersom man ju har hittat något (till skillnad från ett nollresultat), och därmed hjälper forskaren i karriären. Att en del reagerar på dessa incitament är nog inte kontroversiellt att säga.

Och ännu naturligare än p-hackande är nog det som kallas forking, från ”the garden of forking paths” där man låter data avgöra hur analysen ska genomföras. Ska vi titta på alla observationer eller endast män eller endast kvinnor, eller äldre eller yngre?

Replikationskrisen – alltså problemet att många resultat inom vetenskapliga tidskrifter inte går att upprepa i nya studier – har drabbat många fält.

Nånstans blir något statistiskt signifikant om vi väljer att vandra nerför någon stig – sådana subgruppsanalyser kan vara väldigt intressanta, men varningsklockor ringer också när dessa inte har specificerats i förväg. Och trots att det på många sätt känns naturligt att ”lära känna data” och se var effekter ”finns” leder dessa analyser ändock till p-värden som inte längre går att tolka som falsk positiv sannolikhet och statistisk signifikans blir därför meningslöst.

Replikationskrisen – alltså problemet att många resultat inom vetenskapliga tidskrifter inte går att upprepa i nya studier – har drabbat många fält. Magnus Johannesson och jag med många andra har visat på problem inom psykologi, nationalekonomi och närliggande områden. I ett stort psykologiprojekt replikerade 270 forskare 100 studier och fann att omkring en tredjedel av resultaten höll i bemärkelsen att vi fann statistiskt signifikanta effekter i samma riktning som ursprungsresultaten.

När vi gjorde ett liknande test på experimentella studier inom nationalekonomi blev utfallet i stället 11 av 18 resultat, och när vi studerade beteendeexperiment publicerade i de allmänvetenskapliga topptidskrifterna Nature och Science var utfallet att 13 av 21 valda resultat höll. Det finns ingen anledning till att tro att det här är ett experimentellt problem – om något är forskares frihetsgrader större för annan slags data där man även behöver göra fler antaganden för att kunna dra kausala slutsatser.

Experimentell forskning har belysts extra i replikationskrisen just för att experiment relativt lätt faktiskt går att genomföra igen – vi kan göra om studierna med nya deltagare. Många andra samhällsvetenskapliga fenomen kan inte nagelfaras på samma sätt.

Forskning om forskning

Hur överraskande är då detta? För att förstå mer kring förutsägbarheten av replikerbarheten bjöd vi in forskare till att försöka förutse resultaten av replikationerna genom att delta i prognosmarknader. Forskarna fick pengar att köpa och sälja kontrakt i huruvida resultat höll eller inte, och vi tolkar priserna på dessa kontrakt som sannolikheterna marknaden tillskriver att resultaten håller.

Jag tolkar den imperfekta ”wisdom of crowds” som vi ser att det finns något systematiskt i vilka resultat som håller, och en naturlig följdfråga är då varför så många av dessa resultat ändå publicerats. Det är inte något jag kan svara på. Det finns också fler replikationsprojekt än ovan nämnda inom till exempel filosofi, medicin och andra områden, och slutsatserna från dessa projekt är ofta lika bedrövliga.

Probleminsikten har också ökat och framför allt psykologi ligger i framkanten vad gäller att implementera potentiella lösningar.

Men framtiden är nog desto ljusare. Ett positivt tecken på förändring är framväxten av det forskningsfält som kallas ”meta science” – forskning om forskning. Detta område fokuserar på problemen men även lösningarna och har nyligen fått ökad allmän uppmärksamhet (i Sverige bland annat genom Hanne Kjöllers intressanta bok Kris i forskningsfrågan). Probleminsikten har också ökat och framför allt psykologi ligger i framkanten vad gäller att implementera potentiella lösningar. Det finns många sätt att göra resultat mer tillförlitliga – till exempel genom att undvika meningslösa p-värden med hjälp av förregistrerade analysplaner.

En av de mest lovande initiativen nu är så kallade ”registered reports” där forskare beskriver hur de ska göra studien och vilka tester som ska genomföras, och denna rapport granskas och accepteras för publikation av andra forskare innan datainsamlingen börjar. På så sätt kan vi komma bort från publikationsbias och ändå testa nya spännande hypoteser.

Kanske borde vi också redogöra för våra priors, sannolikheter, i högre utsträckning när vi tolkar resultat – alltså vilken sannolikhet vi tillskriver en hypotes innan den testats. Priors är dock ofta subjektiva och svåra att mäta, men prognosmarknaderna kan fungera som ett verktyg för detta.

Räkna med osäkerhet

Priors kan självklart vara fel, men att helt bortse från dem och likställa ett statistiskt signifikant resultat som säger att vatten har minne (det publicerades faktiskt en studie som hävdade just detta i Nature 1988) med ett statistiskt signifikant resultat som säger att en sovande person oftare ligger ner än står upp är också minst sagt problematiskt. Testandet av hypoteser med låg sannolikhet att vara sanna i kombination med låg statistisk styrka, publikationsbias och många frihetsgrader i analysen är ett recept för katastrof.

Men i en värld där vi oroas av fake news och liknande fenomen är det extra viktigt att forskningsresultat är tillförlitliga.

Man kan ju fråga sig om mitt inledande exempel om power posing spelar någon roll eller om det bara reflekterar en hang-up som jag kanske borde lägga bakom mig – vem bryr sig om någon felaktigt tror på power posing? Men i en värld där vi oroas av fake news och liknande fenomen är det extra viktigt att forskningsresultat är tillförlitliga.

Samtidigt måste vi räkna med osäkerhet i resultat – även när allt går rätt till kommer vissa resultat vara falska (positiva eller negativa). Replikationskrisen är inget underkännande av ”den vetenskapliga metoden”, men vi kan påskynda processen och identifiera falska resultat snabbare samt minimera dem i högre utsträckning. Falska resultat tenderar att hänga kvar under lång tid, även i fall där det totalt diskrediterats (till exempel skandalen med Andrew Wakefield som fabricerade data som hävdade att MMR-vacciner orsakade autism). Och det finns också många resultat vi kan lita på – och de kännetecknas just av att olika forskare har lyckats replikera dem.

Snart kanske vi kan prata mindre om replikationskrisen och mer om replikations- eller tillförlitlighetsrevolutionen!

Anna Dreber Almenberg är professor i nationalekonomi vid Handelshögskolan i Stockholm. Hon fick Assar Lindbeck-medaljen 2019 och är ledamot av Vetenskapsakademien.

Kvartals nyhetsbrev

Tack!

Kan vi lita på forskningen?

Att göra om gamla experiment

Hellre publicera positiva samband

Incitament till att hitta positiva samband

Forskning om forskning

Räkna med osäkerhet

KONTAKT

KUNDTJÄNST

OM KVARTAL

Kvartals nyhetsbrev

Tack!

Prenumerera gratisresten av sommaren!

Aktivera dina poddar nu

Kan vi lita på forskningen?

Att göra om gamla experiment

Hellre publicera positiva samband

Incitament till att hitta positiva samband

Forskning om forskning

Räkna med osäkerhet

Prenumerera gratis
resten av sommaren!