Crisi della replicazione

Ioannidis (2005), "Perché i risultati della maggior parte delle ricerche pubblicate sono falsi".[1]

La crisi della replicazione[2] (chiamata anche crisi della replicabilità e crisi della riproducibilità) è una crisi metodologica per cui è stato riscontrato come molti risultati sperimentali siano difficili o impossibili da replicare o riprodurre. La crisi della replicazione colpisce più gravemente le scienze sociali e la medicina,[3][4] mentre i dati delle rilevazioni indicano fortemente che anche tutte le scienze naturali sono probabilmente implicate. La frase è stata coniata nei primi anni 2010[5] come parte di una crescente consapevolezza del problema. La crisi della replicazione rappresenta un importante corpo di ricerca nel campo delle metascienze.[6]

Poiché la riproducibilità dei risultati sperimentali è una parte essenziale del metodo scientifico,[7] l'incapacità di replicare gli studi di altri ha conseguenze potenzialmente gravi per molti campi della scienza in cui teorie significative sono fondate su un lavoro sperimentale irriproducibile. La crisi della replicazione è stata ampiamente discussa nei campi della medicina, dove sono stati fatti numerosi sforzi per riesaminare i risultati classici, per determinare sia l'attendibilità dei risultati sia, se ritenuto inattendibile, le ragioni del fallimento nel replicare.[8][9]

Replicazione sperimentale: definizione, tipi e funzioni.[modifica | modifica wikitesto]

Definizione e criteri di replicazione[modifica | modifica wikitesto]

Il concetto di replicazione può essere generalmente definito come uno strumento metodologico basato sulla ripetizione di un esperimento al fine di stabilire un certo fatto, verità o un elemento di conoscenza scientifica.[10] In una replicazione, la ripetizione di una data procedura sperimentale viene operata su un campione di dati diverso dall’esperimento originale, in maniera tale da testare l’affidabilità dei risultati di quest’ultimo.[11] In questo senso, la replicazione si può differenziare dalla riproduzione, in quanto la seconda viene definita come una procedura volta al ripetere lo stesso processo di analisi sugli stessi dati dell’originale. La replicazione si differenzia anche da un test di “robustezza”, che è invece volto all’analizzare gli stessi dati con una strategia di analisi sufficientemente diversa da quella usata nell'esperimento originale.[11]

Generalmente, nel decidere se un esperimento sia stato replicato con successo, questa decisione si conforma spesso come un giudizio dicotomico di tipo “replicato/non replicato”.[11] Per esempio, nel contesto di un test di verifica d’ipotesi, la replicazione di risultati trovati in precedenza avviene quando i risultati ottenuti in uno studio di replicazione sono statisticamente significativi nella direzione prevista dallo studio originale.[11] In generale, non vi è consenso nella comunità scientifica su un singolo criterio per stabilire se i risultati di un esperimento siano stati replicati o meno, e molto spesso, i progetti di replicazione usano una molitudine di parametri per stabilire se un certo esperimento sia stato replicato con successo.[12][13][14]

La definizione di cosa implichi esattamente “ripetere un esperimento” è ancora un concetto molto discusso nel campo delle metascienze, specialmente quando applicato alle scienze psicologiche.[10][15] In generale vi è accordo sul fatto che, in diverse discipline scientifiche, non sia possibile riprodurre un esperimento tale e quale all’originale (ciò che viene talvolta definita come una “replicazione esatta”).

Tipi di replicazione[modifica | modifica wikitesto]

Un numero di tassonomie è stato sviluppato con l’obbiettivo di definire diversi tipi di replicazione sperimentale. Comunemente, una distinzione molto spesso usata[10][16][17] è quella tra i seguenti tipi:

  • Replicazione diretta - Una replicazione viene definita come “diretta” se sufficientemente simile all’esperimento originale da un punto di vista metodologico, in maniera tale da aspettarsi legittimamente di ottenere gli stessi risultati.[18] Più nello specifico, una replicazione diretta può essere intesa come un esperimento che ripete le caratteristiche cruciali per riprodurre un certo effetto o fenomeno. Le caratteristiche cruciali per la produzione di un certo effetto sono a loro volta basate sulla comprensione teorica dell’effetto stesso.[19]
  • Replicazione concettuale - Una replicazione viene definita come “concettuale” nel momento in cui si testa una certa ipotesi già testata in precedenza con significative variazioni metodologiche. Un esempio di variazione metodologica significativa può essere l’utilizzo di una diversa operazionalizzazione delle variabili indipendenti e dipendenti nello studio di replicazione rispetto all’originale.[10][18]

Allo stesso tempo, altre tassonomie sono state proposte, come quella del metascienziato Etienne Lebel e colleghi, che vede la differenza tra diversi tipi di replicazione come meglio rappresentata da un continuum di similarità metodologica tra la replicazione e l’esperimento originale.[18]

Funzioni[modifica | modifica wikitesto]

In via generale, l’importanza della replicazione a livello scientifico viene spesso associata agli scritti di Karl Popper.[20] In particolare, un numero d'interpretazioni circa l’importanza della replicazione scientifica fa riferimento al seguente estratto dal primo capitolo della Logica della scoperta scientifica:

“Soltanto quando certi eventi ricorrono in accordo con regole, o regolarità, come nel caso degli esperimenti ripetibili, le nostre osservazioni possono essere controllate - in linea di principio - da chiunque. Non prendiamo neppure sul serio le nostre proprie osservazioni, né le accettiamo come osservazioni scientifiche, finché non le abbiamo ripetute e controllate. Soltanto in seguito a tali ripetizioni possiamo convincerci che non stiamo trattando con una semplice ‘coincidenza’ isolata, ma con eventi che, grazie alla loro ripetibilità e riproducibilità possono, in linea di principio, essere sottoposti a controlli intersoggettivi”. (Popper, 1959/2012, p. 26-27)[21]

Secondo il sopracitato Stefan Schmidt, Popper connette l’idea di ripetere un esperimento con il principio di uniformità della natura di Hume come metodo base per ottenere conoscenza oggettiva delle leggi che regolano i fenomeni del mondo. Attraverso la ripetizione di un determinato esperimento, è quindi possibile dimostrare la stabilità delle nostre osservazioni e conoscenze dei fenomeni naturali.[10] In altre parole, la ricorrenza sistematica di un certo evento secondo precise regole è ciò che rende il suddetto evento testabile intersoggettivamente. A sua volta, questa verifica intersoggettiva è ciò che permette di stabilire conoscenze valide e oggettive dell'evento stesso.[22]

Più nello specifico, i diversi tipi di replicazione menzionati nella sezione precedente svolgono differenti funzioni da un punto di vista epistemologico.

Le replicazioni dirette svolgono la funzione di testare l’effettiva esistenza degli effetti e fenomeni osservati in precedenza. Più precisamente, vista la loro similarità con gli esperimenti originali, replicazioni di questo tipo sono mirate a falsificare l’ipotesi che un fenomeno osservato originariamente sia un falso positivo.[10][18][19] In questo senso, se da una parte il successo di una replicazione diretta può renderci più fiduciosi nell’effettiva esistenza degli effetti trovati in precedenza, dall’altra il fallimento di una replicazione diretta può generalmente diminuire la nostra fiducia nell’esistenza di quegli stessi effetti (suggerendo invece che possa essersi trattato di falsi positivi).[15][16]

Differentemente dalle replicazioni dirette, le replicazioni concettuali sono considerate importanti nel processo di espansione teorica, nel testare la validità di esperimenti precedenti e nello stabilire la generalizzabilità dei fenomeni osservati in precedenza.[17][18] Ciò avviene grazie alle variazioni metodologiche proprie di questi tipi di replicazione, che permettono quindi di testare certe ipotesi ausiliarie associate all’ipotesi principale, e l’importanza di certi fattori nella produzione di un effetto (e.g. il tipo di operazionalizzazione utilizzata, il tipo di stimoli, o il tipo di costrutti teorici, et cetera).[18]

Viste le considerazioni di cui sopra sulle funzioni della replicazione sperimentale nelle discipline scientifiche, una bassa incidenza di replicazioni dirette rispetto a replicazioni concettuali, unita a bassi tassi di replicabilità può essere considerata allarmante da un punto di vista epistemologico.[16]

Storia della crisi[modifica | modifica wikitesto]

L’inizio della crisi di replicazione può essere ricondotto ad una serie di eventi verificatisi all’inizio dei primi anni 2010. Il filosofo della scienza ed epistemologo sociale Felipe Romero ha identificato i seguenti fatti come probabili eventi scatenanti della crisi[23]:

  • Controversie riguardanti gli studi sui fenomeni del priming sociale: Nei primi anni 2010, un famoso esperimento condotto nel 1996 dallo psicologo sociale John Bargh e colleghi[24] non viene replicato in una serie di replicazioni dirette[25]. La serie di studi, di cui l’esperimento faceva parte, era stata fino a quel momento largamente citata da altri studi accademici e veniva regolarmente insegnata nei corsi universitari di psicologia sociale, oltre ad aver dato luogo ad un gran numero di replicazioni concettuali. Quest’ultimo fatto è risultato nella creazione di un intero programma di ricerca sui cosiddetti fenomeni di “priming sociale”[N 1]. In aggiunta ai fallimenti nel replicare uno degl’esperimenti originali di Bargh e colleghi, un numero considerevole delle replicazioni concettuali sopracitate non è stato replicato in successive replicazioni dirette[26][27][28][13]. Inoltre la controversia generata dal fallimento nel replicare l’esperimento originale ha scatentato un acceso dibattito che ha visto protagonista lo stesso John Bargh[29].
  • Controversie riguardanti il fenomeno della percezione extrasensoriale: Nel 2011 una serie di esperimenti condotti dallo psicologo sociale Daryl Bem ha riportato la possibile esistenza del fenomeno della "percezione extrasensoriale", secondo il quale le persone potrebbero, sorprendentemente, venir influenzate da eventi futuri dei quali non sono a conoscenza[30]. Bem è stato fortemente criticato per la metodologia usata negli studi, e una più precisa rianalisi dei dati dello studio originale non ha constato alcuna evidenza per l’esistenza del fenomeno sopracitato[31]. Inoltre una serie di replicazioni dirette degli esperimenti condotti da Bem non ha prodotto risultati significativi[32]. La vicenda è stata considerata particolarmente allarmante dalla comunità psicologica in quanto le tecniche di analisi utilizzate da Bem erano di uso comune nella ricerca.
  • Report delle compagnie Amgen e Bayer sui bassi tassi di replicazione nella ricerca biomedica: Tra il 2011 e il 2012, due studi condotti da ricercatori delle compagnie Amgen e Bayer Healthcare vengono pubblicati in cui gli autori riportano tassi di replicazione particolarmente bassi (11-20%) per una serie d’importanti studi nel campo della ricerca oncologica[33][34].
  • Pubblicazione di una serie di studi sui fenomeni del p-hacking e delle pratiche di ricerca discutibili (PDR): A partire dagl’ultimi anni 2000, una serie di studi nel campo delle metascienze dimostra come l’adozione di una serie di pratiche di ricerca, quali lo sfruttare la flessibilità del processo di analisi e report dei dati, possa aumentare considerevolmente la probabilità di ottenere dei falsi positivi[35][36]. La prevalenza di queste pratiche viene attestata da uno studio condotto nel 2012 dalla scienziata del comportamento Leslie K. John e colleghi[36]. In via generale, questa serie di studi ha suggerito come una percentuale significativa degli studi pubblicati fino a quel momento in diversi campi potesse non essere replicabile in quanto riportante falsi positivi.

La serie di eventi di cui sopra ha generato un’ondata di scetticismo verso la validità della ricerca esistente in diversi campi scientifici vista l’adozione comune di pratiche di ricerca di dubbia validità e il fallimento nel replicare diversi studi. Ciò ha portato figure di spicco nella comunità psicologica e di altre scienze a dichiarare una “crisi di fiducia” nella conoscenza scientifica prodotta fino a quel momento[37]. La situazione che ne è scaturita è adesso comunemente conosciuta come crisi della replicazione.

Se da una parte l’inizio della crisi della replicazione può essere datato ai primi anni 2010, dall’altra alcuni accademici hanno fatto notare come molte delle critiche alle pratiche di ricerca che hanno portato alla crisi fossero già state mosse in passato. In uno dei suoi scritti, Romero riporta come in psicologia, preoccupazioni circa la mancanza di replicazioni dirette fossero già state espresse a fine anni ‘60 e ad inizio anni ‘70[38][39], e come una serie di studi avesse già testimoniato la riluttanza degl’redattori delle riviste scientifiche nel pubblicare studi di replicazione.[23]

La psicologa cognitiva Barbara Spellman ha anche evidenziato in suo scritto come le critiche proprie della crisi non siano nuove.[40] Come riportato da Spellman, in un periodo compreso tra fine anni ‘50 e primi anni ‘90, diversi accademici avevano già espresso preoccupazioni riguardo una possibile crisi di replicazione[41], una proporzione troppo alta di risultati positivi tra quelli pubblicati[42], L’utilizzo di PDR[43], problemi relativi alla potenza statistica[44], e resoconti metodologici insufficienti per garantire la replicabilità degl’esperimenti[41].

Secondo Spellman, per una serie di ragioni, la reiterazione di queste critiche in epoca recente ha avuto effetti diversi, tanto da portare ad una crisi largamente riconosciuta come tale. Per esempio, i miglioramenti tecnologici degl’ultimi 20 anni hanno facilitato sia il condurre che il disseminare studi di replicazione (ed eventuali fallimenti degli stessi), oltre a permettere analisi massive sulle pratiche di ricerca di utilizzo comune. A parere di Spellman, i cambiamenti demografici nella comunità scientifica potrebbero anche avere avuto un ruolo nell’emergere della crisi. L’aumento nei numeri e nella diversità demografica delle comunità scientifiche ha fatto si che gli studi di accademici d’alto profilo potessero venir criticati ed analizzati con meno remore, cosa che risultava invece più difficile in passato in una comunità scientifica dov’era più facile conoscere personalmente gli autori di un certo studio. Allo sviluppo tecnologico e ai cambiamenti demografici vanno poi ad aggiungersi un numero di risorse sempre più limitato ed uno sbilanciamento degl’incentivi dati a singoli scienziati per svolgere attività di ricerca (vedi sezione 3.1.2). Queste serie di fattori ha fatto si che dal rinnovamento di critiche già mosse in passato alla ricerca scientifica sia scaturito un effettivo stato di crisi a partire dai primi anni 2010 in avanti.

Cause[modifica | modifica wikitesto]

Problemi nel sistema di pubblicazione[modifica | modifica wikitesto]

Bias di pubblicazione[modifica | modifica wikitesto]

Il bias di pubblicazione si riferisce ad un fenomeno per cui, nelle scienze, gli studi che trovano risultati positivi e sorprendenti hanno una maggior probabilità di venir pubblicati[23]. Questo porta alla creazione del cosiddetto "effetto del cassetto dei file”, concettualizzato dallo psicologo Robert Rosenthal, secondo il quale alla luce del bias di pubblicazione un numero considerevole di risultati negativi (non-significativi nel caso di un test d’ipotesi) non viene pubblicato[45]. Quest’utimo tende a distorcere la percezione di quale sia il reale supporto empirico verso una teoria o un fenomeno scientifico. Secondo il sopracitato Romero, quando il bias di pubblicazione viene considerato insieme al fatto che una possibile larga maggioranza delle ipotesi che vengono testate siano false a priori (sezione 3.5), si crea una situazione in cui è plausibile che una porzione considerevole di risultati pubblicati siano falsi positivi[1]. Un alto tasso di falsi positivi spiegherebbe a sua volta i diffusi fallimenti nel replicare esperimenti passati.

Un ulteriore e ancor più diretto ruolo del bias di pubblicazione nella crisi di replicazione sta nel fatto che la forte preferenza delle riviste scientifiche verso risultati ed esperimenti originali costitituisce un deterrente per i ricercatori al condurre replicazioni dirette, come spiegato dal filosofo Brian D. Earp e dallo psicologo Jim A. C. Everett[46]. A testimonianza di questo fatto, un sondaggio della rivista Nature condotto con più di 1500 ricercatori ha constatato come solo una minoranza degli stessi avesse mai provato a pubblicare una replicazione diretta. Tra i ricercatori, molti hanno riportato come, al momento di pubblicare una replicazione fallita, una richiesta comune da parte degl’redattoridella rivista fosse quella di minimizzare i paragoni con l’esperimento originale[47].

Cultura del “pubblica o perisci”[modifica | modifica wikitesto]

Le conseguenze del bias di pubblicazione sono esacerbate dalla cosiddetta cultura del “pubblica o perisci” in ambito accademico. Come notato dal metascienziato Daniele Fanelli, la cultura del “pubblica o perisci” si riferisce ad un aspetto sociologico del mondo accademico per cui i ricercatori lavorano in un ambito ultracompetitivo e nel quale il riconoscimento è sempre più basato su parametri bibliometrici, come il numero di studi pubblicati fino a quel momento[48]. Secondo Fanelli, ciò crea una forte pressione nei singoli ricercatori volta a produrre risultati che siano “pubblicabili”. Alla luce del bias di pubblicazione, ciò può spingere diversi ricercatori a metter in pratica una serie di strategie per far sì che un risultato sperimentale diventi positivo o statisticamente significativo, a discapito della validità dello stesso (PDR, sezione 3.2). Di un’idea simile sono il biopsicologo ed esperto di metascienza Brian Nosek e colleghi, secondo cui la cultura del “pubblica o perisci” ha creato una situazione in cui gli obbietivi dei singoli ricercatori (e.g. ottenere più pubblicazioni possibili) non sono generalmente allineati con quelli della ricerca scientifica in generale (e.g. ricerca della verità scientifica)[49].

Pratiche di Ricerca Discutibili[modifica | modifica wikitesto]

Una delle possibili cause dei bassi tassi di replicabilità in diversi campi e sottocampi scientifici può essere vista nelle cosiddette Pratiche di Ricerca Discutibili (PDR).[N 2] Le pratiche di ricerca discutibili sono una serie di pratiche di ricerca che rientrano in una “zona grigia” tra pratiche accettabili e non accettabili[50]. Il problema principale nell’utilizzo di queste pratiche sta nell’aumentare in maniera significativa la probabilità di ottenere falsi positivi[35]. Alla luce di ciò, un’alta prevalenza nell’utilizzo di PDR può portare alla proliferazione di un numero significativo di falsi positivi. Esperimenti riportanti questi risultati risultano di conseguenza non-replicabili in successivi studi.

La non-chiara accettabilità delle PDR dipende dall’intenzione del ricercatore che le mette in pratica. A seconda del livello di consapevolezza sulla problematicità del loro impiego, le PDR ricadono lungo un continuum, che va dal grave caso di una volontaria “cattiva condotta” scientifica all’assenza di consapevolezza dello star impiegando pratiche di ricerca problematiche, passando per casi in cui il loro utilizzo viene giustifcato da bias cognitivi o avviene per semplice sbadataggine del ricercatore[50].

Esempi comuni di PDR includono il formare un’ipotesi solo una volta che si è a conoscenza dei dati (i.e. HARKing)[51], il raccogliere dati fino a quando non si trovano risultati significativi, il riportare esclusivamente le ipotesi che sono state confermate, il riportare esclusivamente le variabili dipendenti che hanno portato a risultati significativi, e l’esclusione di outlier, covariate o condizioni sperimentali al fine di ottenere risultati significativi[36][50].

Le PDR sono generalmente associate alla più generica pratica del p-hacking. Il p-hacking si riferisce ad una serie di comportamenti messi in pratica dal ricercatore al fine di aumentare le probabilità di trovare risultati significativi[52]. Come spiegato nella sezione precedente, ciò viene fatto nella speranza di vedere i propri studi pubblicati ed è quindi, come l’impiego delle PDR in generale, considerabile una conseguenza del bias di pubblicazione[48][49].

Proliferazione di replicazioni concettuali ed assenza di replicazioni dirette[modifica | modifica wikitesto]

Una causa aggiuntiva della mancanza di replicabilità sta nella pratica comune di condurre solo replicazioni concettuali e la loro interazione con il bias di pubblicazione. Secondo gli psicologi Hal Pashler e Christine Harris la problematicità dell’interazione di questi due fattori sta nel fatto che può portare un intero programma di ricerca ad essere basato su risultati non validi[16]. Ciò è dovuto al fatto che, come notato in precedenza, per via del bias di pubblicazione la stragrande maggioranza delle replicazioni che vengono condotte sono concettuali, e di queste solo quelle che ottengono risultati significativi vengono pubblicate. In aggiunta, una replicazione concettuale che fallisce non genera scetticismo verso la validità dei risultati originali. In tal caso, è probabile che un ricercatore attribuisca il fallimento, nel replicare, alle differenze metodologiche tra l’originale e la replicazione, piuttosto che al fatto che l'esperimento originale fosse un falso positivo.

In sunto, le replicazioni che vengono condotte sono prevalentemente di tipo concettuale, solo quelle signficative vengono pubblicate e quelle che falliscono non sono informative. Ciò crea potenzialmente una situazione in cui un dato programma di ricerca è basato esclusivamente su una percentuale di replicazioni concettuali riuscite, senza alcun metodo per misurare la validità e l’affidibilità delle stesse (per esempio il condurre replicazioni dirette). Secondo Pashler e Harris, la situazione è particolarmente preoccupante nelle aree di studio in cui gli esperimenti hanno bassa potenza statistica (dove è quindi probabile che una più alta percentuale di studi siano falsi positivi)[16].

La situazione è resa ancor più problematica alla luce del fatto, citato in precedenza, che nella situazione attuale di certi campi scientifici, i singoli ricercatori sono fortemente disincentivati al condurre replicazioni dirette. Earp ed Everett spiegano come, in psicologia sociale, la decisione dei singoli ricercatori sull'investire tempo e risorse nel condurre una replicazione diretta si conformi come un dilemma sociale. Questo tipo di dilemma avviene in situazioni in cui, nel prendere una certa scelta, gli interessi di un individuo sono in contrasto con quelli della collettività, e dove l'opzione "individualista" tende ad essere più vantaggiosa.[46] Nel caso della crisi della replicazione, per la comunita scientifica risulta fondamentale condurre replicazioni dirette, ma il condurre questo tipo di studi non risulta invece conveniente per i singoli ricercatori. Earp ed Everett offrono i seguenti cinque motivi sul perché condurre replicazioni dirette non sia conveniente per i singoli ricercatori:

  1. Una replicazione diretta potrebbe richiedere molto tempo
  2. È probabile che una replicazione diretta porti via tempo e risorse a progetti più originali
  3. Le replicazioni dirette sono più difficili da pubblicare
  4. Se pubblicate, le replicazioni dirette non vengono viste come un contributo importante in termini conoscitivi
  5. Le replicazioni dirette tendono ad attrare meno stima, fondi e riconoscimenti per chi le conduce

Per questi motivi, i ricercatori sono spesso disincentivati al condurre replicazioni dirette.[46] In mancanza di replicazioni dirette, diventa complicato stabilire la validità dei risultati esistenti (sezione 1.3).

Problemi di natura statistica[modifica | modifica wikitesto]

Bassa potenza statistica[modifica | modifica wikitesto]

Il professore all’università di Deakin ed esperto di meta-analisi Tom Stanley e colleghi spiegano come un fattore importante che contribuisce alla bassa replicabilità degli studi sia il fatto che un certo studio abbia una bassa potenza statistica, dove quest'ultima è definita come la probabilità di respingere correttamente l'ipotesi nulla [53]. L'influenza di una bassa potenza statistica sulla replicabilità degl'esperimenti avviene per tre motivi distinti. Primo, nel momento in cui una replicazione ha bassa potenza statistica, per definizione, avrà una bassa probabilità di rilevare un effetto realmente esistente (e quindi, secondo alcune definizioni, di aver successo nel replicare)[N 3]. Secondo, se l’esperimento originale ha bassa potenza statistica, tenderà a sovrastimare la dimensione dell’effetto del fenomeno studiato. Di conseguenza, una replicazione in cui viene performata una cosiddetta “analisi della potenza a priori”[N 4] tenderà a sottostimare la dimensione del campione necessaria a replicare l’effetto. Infine è dimostratibile come, nel caso la potenza dello studio originale sia bassa, la probabilità a posteriori che un risultato statisticamente significativo rifletta un effetto esistente sia molto bassa (che, analogamente, suggerisce che lo stesso risultato possa essere un falso positivo). Queste tre ragioni insieme mostrano come, in un contesto dove mediamente gli esperimenti che vengono condotti hanno bassa potenza statistica, un numero significativo di questi stessi esperimenti possa essere difficile da replicare[53].

Uno studio su 200 meta-analisi in psicologia condotto dallo stesso Stanley e colleghi ha determinato che la potenza statistica nella ricerca psicologica tende ad essere piuttosto bassa. La potenza media si aggira tra il 33.1% e il 36.4% contro l’80%, considerato convenzionalmente come una buona potenza statistica. Rispetto a questo 80%, solamente un numero tra il 7.7.% e il 9.1% degli studi sembra possa essere adeguato in termini di potenza statistica[53]. Alla luce di questi dati, è plausibile che una delle cause principali di bassi tassi di replicabilità in psicologia sia dunque una potenza statistica mediamente inadeguata.

Eterogeneità statistica[modifica | modifica wikitesto]

Come riportato dai sopracitati Stanley e colleghi, un altro motivo che potrebbe spiegare diffusi fallimenti nel replicare esperimenti potrebbe risiedere in un’alta eterogeneità statistica di certi effetti. Nel contesto di una meta-analisi, l’eterogeneità statistica fa riferimento alla variabilità degl’effetti presi in esame, dovuta al fatto che un fenomeno non sia rappresentato da un singolo effetto, ma piuttosto da una distribuzione di effetti[54][53].

L’eterogeneità statistica viene calcolata utilizzando una statistica denominata I2. Questa viene definita come la porzione di varianza nella dimensione degli effetti studiati, che non è dovuta all’errore standard associato a questi stessi effetti. Tra gli altri, questo tipo di eterogeneità può essere dovuta a fattori come differenze nei metodi sperimentali, nelle fasce demografiche studiate, o nei metodi statistici usati in diversi studi[54][53].

L’eterogeneità statistica rappresenta un problema nel momento in cui una replicazione tenta di riprodurre la dimensione dell’effetto trovata nello studio originale. Quando l’eterogenità statistica è elevata, è altamente probabile che un successivo studio trovi una dimensione dell’effetto radicalmente diversa da quella dello studio originale.[N 5]

Secondo Stanley e colleghi, è importante notare come l’eterogeneità statistica possa essere elevata anche quando si conduce replicazioni dirette di uno studio. A testimonianza di ciò, gli autori citano un maxi-progetto di replicazione condotto dallo psicologo Richard Klein e colleghi nel quale, questi ultimi hanno tentato di replicare 15 diversi effetti psicologici, conducendo esperimenti da 36 siti diversi. Nello studio, Klein e colleghi hanno trovato un’alta eterogeneità statistica per 8 effetti su 15 (tra il 26% e il 91%)[55]. Nonostante vi fossero delle differenze deliberatamente volute tra le diverse replicazioni, da analisi statistiche, queste differenze non sono state ritenute responsabili dell’eterogeneità osservata. Secondo Stanely e colleghi, ciò può suggerire come l’eterogeneità in questo caso sia propria del fenomeno studiato e che possa, potenzialmente, essere dovuta a cosiddetti “moderatori nascosti”.[53]

Nel loro studio su 200 meta-analisi di effetti psicologici, Stanley e colleghi hanno trovato un'eterogeneità mediana pari al 74% per gli studi in psicologia. Questo livello di eterogeneità è da considerarsi molto alto secondo gli autori, in quanto tre volte più elevato rispetto alla variabilità nella dimensione degl’effetti dovuta al campionamento casuale. Inoltre, quando considerata insieme all’errore standard, l’eterogeneità produce una deviazione standard perfino più elevata della dimensione dell’effetto mediana calcolata dalle 200 meta-analisi nello studio[53].[N 6]

Dalla loro analisi, Stanley e colleghi hanno concluso che nel momento in cui il successo di una replicazione viene definito dalla capacità della stessa di riprodurre la dimensione dell’effetto trovata nello studio originale, è improbabile che le replicazioni abbiano successo alla luce degl’alti livelli di eterogeneità suggeriti dal loro studio. Ciò avviene anche quando le replicazioni sono di tipo diretto, in quanto in quei casi l’eterogeneità sembra rimanere alta.[53]

Utilizzo dei test d'ipotesi nulla[modifica | modifica wikitesto]

Secondo il già menzionato Felipe Romero, un possibile fattore che contribuisce alla bassa replicabilità dei risultati può essere trovato nelle limitazioni epistemologiche dei test d'ipotesi nulla. Nella sua argomentazione, Romero cita un comunicato dell’Associazione Statistica Americana in cui il direttore esecutivo dell’associazione Ronald Wasserstein e la statistica Nicole Lazar riportano un numero di limitazioni ed errori d’interpretazione del cosiddetto p-value usato nei test d'ipotesi nulla[56]. Tra questi vi è il fatto che i p-value non possono portare ad accettare o a rifiutare l’ipotesi nulla in maniera conclusiva. Secondo Romero, questo fatto va a limitare l’informatività di una replicazione fallita e la rende conseguentemente difficile da interpretare e da pubblicare[23].

Tasso di accuratezza delle ipotesi testate[modifica | modifica wikitesto]

Un ulteriore fattore, che potrebbe essere alla base dei bassi tassi di replicabilità nei campi scientifici, va ritrovato nel tasso di accuratezza/veridicità a priori delle ipotesi che vengono testate. Questa spiegazione è stata proposata ed elaborate dal filosofo e professore all’Università di Cambirdge Alexander Bird. Bird fa notare come l’aspettativa che una maggioranza dei risultati sperimentali in certi campi scientifici possa essere replicata potrebbe non essere giustificata. Ciò deriva essenzialmente dal fatto che, in certe scienze, è concepibile che una proporzione non-indifferente d’ipotesi che vengono testate sia falsa a priori. Di conseguenza, assumendo il caso tipico dei test d'ipotesi nulla, nel quale vi è una probabilità del 5% di ottenere un falso positivo (errore di tipo I) e l’80% di ottenere un vero positivo (potenza statistica), nel momento in cui un’alta proporzione di ipotesi testate sia falsa, la percentuale di falsi positivi sarà relativamente alta rispetto al totale dei casi positivi.

Per esempio, nel caso il 90% delle ipotesi testate siano false, si può calcolare come il 36% delle ipotesi che risultano significative siano in realtà falsi positivi [N 7]. Nel caso in cui il 36% dei risultati significativi pubblicati siano dei falsi positivi, è lecito aspettarsi che un numbero non-indifferente di replicazioni dirette sia destinato a fallire. Tutt’al più questa considerazione è ancora più rilevante se fatta insieme al dato per cui la potenza statistica degli studi in certi campi tende ad essere bassa. Prendendo la percentuale calcolata di circa il 36% da Stanley e colleghi per la ricerca psicologica (sezione 3.4.1)[53], il numero di falsi positivi con un 90% di ipotesi testate false a priori sale al 55%.

Bird fa notare come l’asserzione che un basso numero d’ipotesi testate siano vere a priori sia plausibile per certi campi scientifici, per ragioni come la complessità dei fenomeni studiati, il fatto che certe teorie non siano totalmente fondate, la “distanza inferenziale” tra ipotesi e teorie, la facilità nel generare ipotesi, e il fatto che in certi campi, le ipotesi possano essere generate da semplici osservazioni o addirittura solo su base intuitiva. I campi a cui Bird fa riferimento in questo senso sono la medicina clinica, l’epidemiologia genetica e molecolare e la psicologia sociale. La situazione è diversa per campi in cui le teorie testate hanno un ottimo fondamento empirico e nei quali le ipotesi possono essere facilmente dedotte dalle teorie (e.g. la fisica sperimentale).

Sensibilità al contesto di certi effetti[modifica | modifica wikitesto]

Il professore all’Università di New York Jay Van Bavel e colleghi sostengono che un ulteriore motivo alla base delle difficoltà nel replicare alcuni esperimenti sia la sensibilità di certi effetti psicologici al contesto in cui avvengono[57]. In questo senso, i fallimenti nel replicare un certo effetto sarebbero da attribuirsi alle differenze contestuali e metodologiche tra l’esperimento originale e la replicazione. In una replicazione diretta, non tutti i fattori sono esattamente uguali all’esperimento originale, e solo quelli considerati necessari per produrre un certo effetto vengono riprodotti (sezione 1.2). Fattori quali il contesto socio-culturale, l’utilizzo di una certa fascia demografica, o il periodo storico nel quale l’esperimento viene condotto non vengono necessariamente considerati importanti nella produzione di un certo effetto e sono quindi lasciati variare. Il fallimento di una replicazione potrebbe quindi essere dovuto alla differenza in uno di questi fattori tra i due esperimenti, che solo nel momento in cui una replicazione fallisce viene scoperto come importante[57].

Per via della loro influenza, non precedentemente nota, questi fattori vengono chiamati informalmente “moderatori nascosti”. Ad esempio, lo psicologo Martin Schweinberg e colleghi hanno condotto un progetto di replicazione di dieci esperimenti sul giudizio morale nelle persone, in 26 sedi diverse, nel quale fattori precedentemente non considerati fondamentali nella produzione di un effetto, quali la fascia demografica (studenti vs popolazione generale), contesto culturale (USA vs Europa) e sito in cui avveniva l’esperimento (sito dell’originale vs sito diverso), si sono rivelati importanti nel replicarlo[58].

In uno studio condotto nel 2016, Van Bavel e colleghi hanno fornito evidenza diretta dell’influenza della sensibilità al contesto di un effetto sulla probabilità di successo nel replicare un esperimento. Nello studio, gli autori hanno ri-analizzato i dati di un noto progetto di replicazione che ha coinvolto 100 esperimenti in psicologia pubblicati su tre importanti riviste scientifiche[12]. In maniera da testare il ruolo della sensibilità al contesto sulla probabilità di replicare, gli autori hanno ri-codificato i dati dell’originale, assegnando a ciascuno degl’esperimenti un certo valore di sensibilità al contesto da 1 a 5. Hanno poi testato la relazione tra sensibilità al contesto e successo nel replicare attraverso una serie di modelli di regressione[57].

I risultati dello studio hanno mostrato una relazione significativa tra sensibilità al contesto e successo nel replicare. I due fattori sono correlati negativamente, cosicché un aumento di sensibilità al contesto diminuisce la probabilità di avere successo nel replicare. In altre parole, gli effetti maggiormente influenzati da variabili contestuali sono, seguendo i risultati dello studio, mediamente più difficili da replicare. Inoltre, nello studio, la sensibilità al contesto si è rivelata comunque significativa anche quando considerata assieme ad altri fattori considerati importanti per il successo di una replicazione (e.g. dimensione del campione e dell’effetto nello studio originale, potenza statistica della replicazione). Includendo questi fattori nei vari modelli di regressione, gli autori hanno così potuto fornire evidenza per il ruolo che la sensibilità al contesto di un effetto ha sulla probabilità di avere successo nel replicarlo indipendentemente da questi fattori.[N 8][57]

Alla luce di questi risultati, sembra plausibile che la sensibilità al contesto di un certo effetto abbia un’influenza significativa sulla probabilità di avere sucecsso nel replicarlo.

Nelle varie scienze[modifica | modifica wikitesto]

In generale[modifica | modifica wikitesto]

Nel 2016, un sondaggio condotto da Nature su circa 1500 scienziati di diverse discipline, ha riportato come il 70% di loro dichiari di non essere riuscito a replicare gli esperimenti di un altro scienziato/a, ma allo stesso tempo, meno del 20% è mai stato contattato da un altro ricercatore o ricercatrice non in grado di riprodurre un loro esperimento. Più precisamente, l'87% dei chimici, il 77% dei biologi, il 69% dei fisici e degli ingegneri, il 67% dei ricercatori medici, il 64% degli scienziati della terra e dell'ambiente e il 62% di tutti gli altri ha dichiarato di non essere stato in grado di replicare gli esperimenti di qualcun altro. Inoltre, Il 50% degli stessi ha dichiarato invece di non essere stato/a in grado di replicare un proprio esperimento. Del campione, solo una minoranza ha dichiarato di aver tentato di pubblicare una replicazione. Nello specifico, il 24% ha dichiarato di essere stato in grado di pubblicare una replicazione riuscita, mentre solo il 13% ha dichiarato di essere stato in grado di pubblicare una replicazione fallita, un fatto coerente con il fenomeno del bias di pubblicazione. Di questi, un numero non precisato di intervistati ha dichiarato come gli redattori/redattrici delle riviste a cui si è fatto domanda abbiano spesso richiesto di ridurre quanto possibile il paragone con gli studi originali. Allo stesso tempo, gli intervistatori hanno notato come nonostante tutto, le percentuali di accoglienza per gli studi di replicazione fossero comunque maggiori rispetto a quelle di rifiuto da parte delle riviste, con solamente il 12% degl’intervistati ad aver dichiarato di non essere stato in grado di pubblicare una replicazione riuscita, ed il 10% di non essere stato in grado di pubblicare una replicazione fallita. In conclusione, il 52% degl’intervistati ha dichiarato come quella corrente sia una situazione di crisi degna di nota, ma solo il 31% crede che un fallimento nel replicare risultati pubblicati indichi che i risultati originali fossero falsi, e la maggioranza degl’intervistati ha espresso di avere comunque fiducia nella validità dei risultati pubblicati fino a quel momento. [47][59]

Nella psicologia[modifica | modifica wikitesto]

La psicologia è stato uno dei campi maggiormente al centro della controversia riguardante la crisi. In particolare, aree di ricerca specifiche quali la psicologia sociale, la psicologia clinica[60][61], la psicologia dello sviluppo[62] e la ricerca educazionale[63] sono state oggetto di critiche per quanto riguarda la non-replicabilità dei risultati.

Uno dei motivi per cui la psicologia si è vista particolarmente coinvolta va ritrovato nell’alta percentuale di utilizzo di PDR in questo campo (sezione 3.2), come attestato da alcuni studi. Per esempio, il professore all’Università dell’indiana Ernest O’Boyle e lo psicologo Martin Götz, hanno riportato come da un’analisi di diversi sondaggi condotti con scienziati del comportamento, sia stimabile che circa il 50% di questi ultimi abbia trasformato un’ipotesi esplorativa in un’ipotesi confermativa nel corso di un’analisi, una pratica conosciuta come HARKing (Hypothesizing After the Results are Known)[50]. Il problema principale associato a questo tipo di pratica sta nel trattare un’ipotesi formulata a posteriori dei risultati sperimentali come se fosse un’ipotesi formulata a priori, e quindi il concepire una certa spiegazione teorica solamente su base induttiva.[51] Come riportato dallo psicologo Norbert Kerr, ciò rischia di portare ad una situazione per cui una teoria viene creata come conseguenza di un errore di tipo I (i.e. falso positivo). Essendo prettamente induttivo, il formulare ipotesi a posteriori viene generalmente considerato come un approccio epistemologico meno valido rispetto a quello ipotetico-deduttivo (che è invece basato sul dedurre un’ipotesi per poi testarla, ed eventualmente confermarla).[51]

Uno studio particolarmente citato per ciò che riguarda l’incidenza delle PDR in psicologia è quello già menzionato in precedenza condotto dalla scienziata del comportamento Leslie K. John e colleghi.[36] Gli autori hanno condotto un sondaggio con 2000 psicologi per stimare la prevalenza dell’utilizzo di PDR nelle scienze psicologiche. Dai risultati dello studio, ben il 94% degli psicologi ha amesso di avere utilizzato almeno una delle PDR menzionate. Più in particolare, tra le PDR più prevalenti, il 66% ha amesso di aver almeno una volta riportato solo alcune delle misure della variabile dipendente, il 58% di aver continuato a raccogliere dati dopo aver ispezionato i risultati, il 50% di aver solamente riportato studi che “sono funzionati” in una serie di studi condotti, e il 43% di aver deciso di escludere dati a seconda dell’impatto sui risultati.[36] È importante notare come la metodologia dello studio sia stata oggetto di critiche e che le percentuali di utilizzo delle PDR potrebbero essere mediamente più basse, anche se comunque significative.[64]

Un secondo motivo per cui le scienze psicologiche sono state al centro delle controversie attinenti alla crisi sono alcuni casi di frode che hanno coinvolto ricercatori in psicologia[65]. Un caso particolarmente noto è quello dello psicologo sociale Diedriek Stapel. Nel 2011, Stapel è stato sospeso dalla sua posizione come professore all’Università di Tilburg, a seguito di un’investigazione su un possible caso di frode che lo vedeva coinvolto[66]. Sospetti sulla condotta fraudolenta di Stapel sono partiti dalle accuse di alcuni suoi sottoposti, portate all’attenzione dell’allora rettore Philip Eijlander[67]. Nello stesso anno, una commissione investigativa è stata formata per stabilire l’entità della gravità delle azioni di Stapel. Il rapporto, pubblicato nell’Ottobre 2011, ha stabilito come Stapel avesse fabbricato dati in almeno 30 delle sue pubblicazioni.[68] Da quel momento in poi, più di 50 degli studi pubblicati da Stapel sono stati ritratti[69]. Altri casi meno noti di frode verificatisi in epoca recente sono quelli dello psicologo cognitivo Marc Hauser e lo psicologo sociale Lawrence Sanna[65]. Nonostante la risonanza mediatica e il loro ruolo nel mettere la psicologia al centro della crisi, è importante notare come casi di effettiva frode siano relativamente rari nelle scienze. Uno studio sulla frode in ambito scientifico condotto nel 2009 dal sopracitato Fanelli ha riportato come circa il 2% degli scienziati intervistati abbia ammesso di avere fabbricato dati, e che il 14% degli stessi abbia riportato di conoscere qualcuno che l’ha fatto.[70]

L’arrivo della crisi della replicazione ha portato una serie di cambiamenti nelle varie istituzioni della comunità psicologica. Una prima conseguenza della crisi può essere vista nei cambiamenti delle politiche sui processi di revisione, report e pubblicazione messi in atto da alcune riviste scientifiche. La sopracitata Barbara Spellman fa notare come i cambiamenti nelle politiche delle riviste scientifiche siano parte di una “rivoluzione” che sta avendo luogo nelle scienze psicologiche.[40] Alcuni di questi cambiamenti sono stati annunciati nei diversi editoriali delle riviste. Ad esempio, la rivista scientifica Psychological Science nel 2014 ha annunciato una serie di cambiamenti, prevedendo un ampliamento delle sezioni su metodi e risultati degli studi pubblicati, una “checklist” per rendere note varie decisioni nel processo di analisi e report (al fine di arginare eventuali PDR), l’implementazione di certe politiche volte a promuovere pratiche di open science, e cambiamenti rispetto all’utilizzo di certe analisi statistiche.[71] Un altro esempio può essere visto nell’annuncio di una serie di cambiamenti alle politiche della rivista Social Psychological and Personality Psychology nel 2015 quali: una maggior enfasi sulla potenza statistica nelle decisioni relative al pubblicare uno studio, una ridotta enfasi suI comparare i risultati al livello di significatività utilizzato comunemente (p < 0.05), una richiesta ai vari autori di dichiarare in maniera trasparente le decisioni prese nel processo di report e analisi dei dati, ed una promessa, da parte della rivista, di concedere pari opportunità di pubblicazione agli studi di replicazione, sottolineandone l’importanza.[72] Aldilà di questi due esempi, un folto numero di riviste psicologiche ha operato diversi cambIamenti in risposta alla crisi della replicazione, come consultabile sulla pagina web relativa ai “TOP scores” delle riviste sul sito del Center for Open Science.[73]

Le riviste scientifiche di psicologia hanno anche dedicato una serie di edizioni speciali alle questioni riguardanti la crisi, come, ad esempio, un’edizione speciale pubblicata nel 2012 della rivista Perspectives on Psychological Science[74], o una pubblicata nel 2014 dalla rivista Social Psychology.[75]

Nel mezzo della crisi, un altro evento degno di nota è stata la critica al premio Nobel Daniel Kahneman per aver citato alcuni studi controversi sul priming sociale nel suo libro Thinking Fast and Slow.[76] Kahneman ha riconosciuto e risposto alle critiche, ammettendo di aver dato troppa fiducia e credito a studi con bassa potenza statistica, però rimarcando il fatto che creda ancora nella veridictià degli stessi. Kahneman ha anche pubblicato una lettera aperta a tuti i ricercatori nel campo del priming sociale, invitandoli a rimuovere i dubbi sulla validità di quest’area di ricerca replicandone loro stessi i risultati.[77][78]

In psicologia, la crisi è inoltre risultata in una serie di dibattiti e polemiche accese all’interno della comunità.[29][79] Un evento degno di nota sono le controversie che si sono verificate attorno ad una lettera pubblicata sul sito dell’Association for Psychological Science dalla passata redattrice, la nota psicologa sociale Susan Fiske. Nella lettera, quest’ultima critica aspramente il contenuto e le modalità delle critiche portate avanti nel corso della crisi da parte di certi ricercatori. In una versione iniziale della lettera, li definisce come “terroristi metodologici” e “polizia dei dati”. A suo dire, questa parte della comunità tende ad esprimere le proprie critiche con ferocia e “instancabile frequenza”. Le critiche prendono spesso forma di attacchi ed insulti personali, e la selezione di chi criticare viene spesso fatta per motivi non-scientifici, ad esempio la fama della persona criticata. Fiske conclude la lettera rimarcando che l’aspetto più importante delle critiche all’interno di una comunità scientifica debba essere la construttività.[80]

La prima versione della lettera è stata fatta trapelare anticipatamente rispetto alla data di pubblicazione ufficiale.[81] Come riportato in un articolo del magazine online The Cut, questa prima versione ha suscitato scalpore e critiche rivolte a Fiske, accusata di aver usato termini vaghi e di star reagendo in maniera esagerata, solamente allo scopo di prendere le difese di ricercatori “parte della sua cerchia”. L’articolo menziona il fatto che Fiske sia stata spesso criticata dallo statistico e politologo Andrew Gelman, in particolar modo per i problemi metodologici di una serie di studi da lei editati per la Proceedings of the National Academy of Sciences.[79] In un articolo sul suo blog in risposta alla lettera di Fiske, Gelman ha sostenuto come l’aumento di critiche e scetticismo verso la ricerca eistente facciano parte di un cambiamento positivo che sta avendo luogo nella psicologia e nelle scienze. Riferendosi a Fiske, Gelman ha sostenuto che, avendo investito molto nel “sistema precedente”, quest’ultima abbia molto da perdere nel contesto della crisi, e che le sue lamentele riguardo il tono delle critiche siano dovute a ciò.[82]

Tassi di replicazione

Dallo scoppio della crisi, in psicologia, una serie di studi e progetti sono stati condotti per investigare l'incidenza degli studi di pubblicazione rispetto al totale degli studi pubblicati, e i tassi di replicabiltà di diversi effetti riportati nella letteratura scientifica esistente.

Per ciò che riguarda la percentuale di studi pubblicati che sono replicazioni, il professore alla John Hopkins School of Education Matthew Makel e colleghi hanno condotto un’analisi degli studi pubblicati tra il 1900 e il 2012 di cento riviste di psicologia.[83] Gli autori hanno selezionato 500 studi con campionamento casuale contenenti il termine “replicat*” nel titolo, di cui il 68% è risultato essere una replicazione. Ciò ha portato ad una stima del 1.07% della percentuale di studi di replicazione rispetto al totale degli studi presi in esame. Di questi, il 78.9% ha avuto successo nel replicare lo studio originale, con poche differenze tra le percentuali di successo delle replicazioni dirette e quelle delle replicazioni concettuali. Un fatto degno di nota evidenziato dallo studio, è che la probabilità di avere successo nel replicare fosse sensibilmente più alta nel caso gli autori fossero gli stessi dello studio originale (91.7% contro un 64.6%). In sunto, lo studio suggerisce che solo un numero molto basso di studi pubblicati fino al 2012 siano state replicazioni. Allo stesso tempo, come riportato dagli autori, questo numero sembra in aumento dall’anno 2000 in poi.[83]

Per quello che riguarda i tassi di replicabilità di certi effetti, uno studio di replicazione particolarmente noto è il già citato progetto Reproducibility Project: Psychology condotto da un team di ricercatori del Center for Open Science. Nello studio, gli autori hanno tentanto di replicare 100 studi selezionati con campionamento casuale da tre importanti riviste di psicologia sociale e cognitiva.[12] Le replicazioni sono state progettate per avere alta potenza statistica e, quando possibile, miglioramenti nella misurazione delle variabili d’interesse. Vista l’assenza di un chiaro indice di replicabilità, nello studio, diversi criteri sono stati utilizzati per stabilire se uno studio fosse stato replicato o meno. In questo senso, le percentuali di successo nel replicare sono risultate varibili: mediamente, le replicazioni hanno mostrato una dimensione dell’effetto di circa la metà rispetto agli studi originali, e solamente il 36% delle replicazioni è risultata statisticamente significativa (contro il 97% di risultati significativi negli studi originali); nel 47% dei casi, la dimensione dell’effetto trovata nello studio originale è ricaduta nell’intervallo di confidenza calcolato dalla replicazione; allo stesso tempo, solo il 39% degli studi è stato reputato come replicato con successo dalle valutazioni soggettive degli autori della replicazione; conducendo una meta-analisi basata sui risultati combinati dell’originale e della replicazione, il 68% degli effetti è risultato statisticamente significativo. Gli autori fanno notare come in generale, il successo nel replicare rispetto ai questi parametri sembra fosse principalmente collegato alla dimensione dell’effetto originale: gli effetti che mostravano una dimensione maggiore sono risultati più facili da replicare. In sunto, i risultati dello studio hanno mostrato dati variabili per quello che riguarda i tassi di replicabilità degli studi psicologici, e i parametri dalle stime più basse hanno suggerito come solo ⅓ degli studi presi in esame fosse replicabile.[12]

Una serie di progetti di replicazione di una certa importanza sono i considetti progetti Many Labs, mirati a studiare la replicabilità di certi effetti in diversi campioni e contesti. Il primo di questi progetti, condotto dal sopracitato Richard Klein e colleghi, ha esaminato la replicabilità di 13 effetti psicologici utilizzando campioni da 36 siti in varie parti del mondo.[13] Il protocollo del progetto prevedeva una standardizzazione generale delle procedure sperimentali e alti livelli di potenza statistica nei vari studi di replicazione. I vari effetti sono stati testati in singole sessioni sperimentali nei 26 siti. Dai risultati dello studio, 10 effetti su 13 sono stati replicati con successo, mentre uno degli effetti è stato replicato solo in 4 dei 26 campioni sperimentali. Due degli effetti non sono invece stati replicati: i cosiddetti effetti del “flag priming” e del “currency priming”. Gli autori hanno riportato un certo grado di variabilità nella dimensione degli effetti presi in esame, ma questa variabilità non sembra fosse dovuta a l’utilizzo di diversi campioni, ma che fosse propria degli effetti stessi.[13]

Il secondo della serie di progetti Many Labs condotto da Klein e colleghi nel 2015, ha investigato la replicabilità di 28 effetti psicologici, utilizzando 125 diversi campioni provenienti da 36 diversi siti.[55] Oltre allo stimare i tassi di replicabilità degli effetti, il progetto era mirato ad investigare quanto la replicabilità di certi effetti dipenda dal contesto in cui avvengono. Come in altri maxi-progetti di replicazione, gli autori hanno utilizzato diversi criteri per stabilire se uno studio fosse stato replicato o meno. Per esempio, operando test d’ipotesi nulla con un livello di significatività di 0.05, 15 effetti su 28 sono stati replicati con successo. Riducendo il livello di significatività a 0.001 (un criterio più rigido), 14 effetti si sono comunque mostrati statisticamente significativi. In generale, 10 effetti su 28 sono risultati replicabili secondo tutti i criteri di replicazione utilizzati, 5 su 28 hanno mostrato risultati misti secondo i vari criteri di replicabilità, mentre 13 effetti su 28 sono risultati non replicabili secondo tutti i parametri presi in esame. In altre parole, circa il 46% degli effetti investigati nel progetto non sono stati replicati con successo.[55]

Un dato interessante fornito dallo studio sta nella dimensione del campione stimata per trovare la dimensione degli effetti degli studi originali, calcolata secondo i dati forniti dal progetto. Svolgendo un'analisi della potenza a priori, con un valore di potenza statistica dell’80%, gli autori hanno stimato i vari campioni necessari per trovare gli effetti originali a seconda dei tassi di replicabilità dei vari effetti. Per i 10 effetti replicati con successo secondo tutti i parametri, si stima che un campione tra 12 e 54 partecipanti sia sufficiente per avere una potenza statistica dell 80%; per gli studi con tassi di replicazione misti, questi numeri salgono a 200 e 2.184; per gli effetti risultati non significativi, ma comunque diversi da zero e nella direzione prevista dall’effetto originale, si è stimato dimensioni del campione necessarie tra 6.283 e 313.998 persone; infine, per gli studi con dimensioni dell’effetto pari a zero o trovate nella direzione contraria a quella prevista originariamente, gli autori hanno dichiarato che sia impossibile ottenere una dimensione dei campioni abbastanza grande da ottenere una potenza dell’80%.[55]

Nella medicina[modifica | modifica wikitesto]

In uno studio pubblicato nel 2005, Il sopracitato John Ioannidis ha analizzato 49 studi con almeno 1000 citazioni nell’ambito della ricerca clinica pubblicati tra il 1990 e il 2003, allo scopo di stabilire quanti di questi fossero stati contraddetti o meno da successivi studi, quanti fossero stati replicati, e per registrare eventuali cambiamenti nella dimensione dell’effetto tra gli studi originali e quelli successivi. Dai risultati dello studio, è risultato che il 16% degli effetti presi in esame sia poi stato contraddetto in un successivo studio[N 9], il 44% sia stato replicato, il 16% avesse dimensioni dell’effetto di più del doppio rispetto ai successivi studi, e che il 24% non sia stato né contraddetto né replicato da alcuno studio tra quelli presi in esame da Ioannidis.[84]

In uno studio pubblicato nel 2012, Glenn Begley, consulente biotecnologico presso l’agenzia farmaceutica Amgen e Lee Ellis, consulente presso l’agenzia farmaceutica Bayer, hanno riportato che in un tentativo da parte di un team della Amgen di replicare 53 studi di ricerca oncologica preclinica, solamente l’11% degli studi sia stato replicato con successo.[85] Secondo quanto riportato da Begley ed Ellis, negli studi non replicati i dati non erano stati accuratamente analizzati da ricercatori non a conoscenza di quali fossero le condizioni sperimentali e quelle di controllo, e alcuni riportavano solamente esperimenti riusciti, menzionando esplicitamente come questi ultimi non riflettessero l’intero dataset dello studio. Come riportato dagli autori, questi risultati sono coerenti con uno studio condotto da Ellis e un team di ricercatori presso la Bayer, nel quale solamente un 25% degli studi preclinici presi in esame è stato replicato con successo.[N 10] Degli studi non replicati, molti avevano dato luce ad interi programmi di ricerca, e in maniera ancor più preoccupante, alcuni erano stati poi nuovamente condotti come studi clinici con pazienti umani.[85]

In un successivo articolo pubblicato nel 2012, Begley ha suggerito quali fossero le caratteristiche più comuni degli studi non replicabili analizzati nelle sue ricerche precedenti. In particolare, questi studi presentavano caratteristiche quali: mancanza di procedure di “blinding” a quali fossero le condizioni sperimentali e di controllo, totale mancanza di condizioni di controllo, uso improprio dei reagenti, uso improprio dei metodi di analisi statistica, e presentazione parziale dei dati.[86]

Nel 2013, Il ricercatore presso il Center for Cancer Biology dell’Università del Texas Aaron Mobley e colleghi hanno condotto un sondaggio con diverse centinaia di persone tra tirocinanti e membri dello staff al MD Anderson Cancer Center in Texas, al fine di stabilire la frequenza con cui i ricercatori si scontrano con la non-replicabilità della ricerca. Dei partecipanti al sondaggio, circa il 50% ha affermato di aver almeno una volta fallito nel tentare di replicare uno studio precedente. Tra questi ultimi, di coloro che hanno tentato di stabilire le potenziali cause della non-replicabilità di uno studio contattando gli autori originali, molti non sono effettivamente riusciti ad identificarle. Per ciò che riguarda le risposte degli autori originali, il 38.5% degli intervistati ha riportato di aver ricevuto risposte positive e utili, il 44% di aver ricevuto risposte negative o indifferenti, e il 18.5% di non aver ricevuto alcuna risposta.[87]

Nel 2021, i risultati del progetto Reproducibility Project: Cancer Biology condotto da un team di ricercatori del Center for Open Science sono stati pubblicati. Il maxi-progetto era mirato al replicare 193 esperimenti riportati in 53 studi di alto profilo pubblicati tra il 2010 er il 2012 nell’ambito della ricerca biologica sul cancro. Il progetto ha avuto una durata di 8 anni e ha portato alla completa replicazione di 50 degli esperimenti inizialmente presi in esame, per un totale di 158 effetti. Dai risultati dello studio, solamente il 46% degli effetti è stato replicato con successo su più parametri di replicazione rispetto a parametri in cui la replicazione non è andata a buon fine.[N 11] Mediamente, la dimensione degli effetti nelle replicazioni è risultata l’85% inferiore rispetto a quella degli studi originali. Nello studio, è risultato che la probabilità di replicare un effetto positivo fosse circa la meta (40%) rispetto a quella di replicare un effetto nullo (80%).[88]

Nelle scienze del comportamento del consumatore e nel marketing[modifica | modifica wikitesto]

Nel 2001, lo psicologo ed esperto di metodologia John Hunter ha pubblicato un articolo sul Journal of Consumer Behavior sottolineando il “disperato bisogno di replicare” nelle scienze.[89] L’argomentazione di Hunter si basa sulla necessità di condurre replicazioni dirette al fine di rendere utili i risultati delle meta-analisi.[89] L’importanza nel replicare studi di marketing e del comportamento del consumatore è stata sottolineata anche dal professore alla Warthon School dell’Università della Pennsylvania J. Scott Armstrong e dal professore alla Business School dell’Università dell’Australia Meridionale Kesten Green. Questi ultimi riportano una serie di replicazioni di effetti nell’area delle scienze del comportamento del consumatore.[90] La prima fa riferimento all’"effetto delle troppe scelte" studiato dalla professoressa della Columbia Business School Sheena Yinegar e dal professore all’Università di Stanford Mark Lepper, per cui la probabilità di un consumatore di acquistare un certo prodotto diminuisce con l’aumento delle possibili scelte.[91] L’effetto non è stato replicato in una successiva replicazione, e una meta-analisi di studi sullo stesso effetto non ha mostrato evidenza a favore dello stesso.[92]

Secondo Thomas Aichner e colleghi, la necessità di replicare in quest’area è particolarmente forte per gli studi che esaminano la relazione tra comportamento del consumatore e paese di origine del prodotto. L’importanza della replicazione in quest'ultima area di ricerca è dovuta alla necessità di testare l’applicabilità di modelli e teorie in diversi contesti culturali, al fine di evitare generalizzazioni errate sull’impatto dell'origine del prodotto sul comportamento del consumatore. Gli autori riportano inoltre una serie di estratti da altri studi, in cui vari ricercatori sottolineano la necessità di più replicazioni in quest’area.[93]

In economia[modifica | modifica wikitesto]

Nel 2016, l’economista al California Institute of Technology Colin Camerer e colleghi, hanno condotto un maxi-studio di replicazione di 18 studi sperimentali pubblicati sulle riviste American Economic Review e Quarterly Journal of Economics tra il 2010 e il 2014.[14] Gli studi di replicazione sono stati progettati per avere una potenza minima del 90%, e i parametri per stabilire se uno studio sia stato replicato con successo sono gli stessi usati nel Reproducibility Project: Psychology (sezione 4.2.3). Nello studio, gli autori hanno trovato i seguenti risultati per ciò che riguarda i diversi parametri: il 61.1% degli studi di replicazione ha trovato risultati statisticamente significativi nella direzione prevista dallo studio originale, per il 66.7% degli studi, la dimensione dell’effetto dello studio originale era compresa nell’intervallo di confidenza della replicazione, per l’83.3% degli studi, l’effetto trovato nella replicazione ricadeva nel cosiddetto “intervallo di predizione”, mediamente, la dimensione dell’effetto nelle replicazioni era il 65.9% della dimensione degli effetti negli studi originali, e infine, combinando i risultati dei due studi e conducendo una meta-analisi, nel 77.8% dei casi ciò ha prodotto risultati significativi nella direzione prevista dall’originale. In aggiunta, gli autori hanno riportato come 4 effetti avessero una dimensione dell’effetto molto vicina allo zero, un numero di 1.4 volte a superiore a ciò che ci si aspetterebbe per puro caso. Gli autori hanno inoltre specificato che, non avendo considerato una possibile inflazione della dimensione dell’effetto originale dovuta, per esempio, al bias di pubblicazione, la potenza statistica delle replicazioni possa essere stata sovrastimata. Infine, dallo studio è risultato che il p-value dello studio originale e la dimensione del campione originale fossero entrambi correlati in maniera significativa alla probabilità di replicare uno studio, il primo negativamente e la seconda positivamente.[14]

Uno studio condotto nel 2016 da John Ioannidis e colleghi ha investigato la credibilità dei risultati della ricerca economica. Dai risulati dello studio, è risultato che circa l’80% degli studi con adeguata potenza statistica avevano una dimensione dell’effetto sovrastimata, generalmente di un fattore di 2, e per ⅓ degli studi di un fattore di 4 o più.[94]

Nella scienza dello sport[modifica | modifica wikitesto]

In uno studio pubblicato nel 2018, il professore all’università di Tel Aviv Israel Halperin e colleghi hanno riassunto una serie di problemi comuni nella metodologia degli studi di scienza dello sport e dell’esercizio fisico. Tra questi, gli autori hanno commentato l’impatto del bias di pubblicazione in questo campo, sottolineando come sia comune il progettare esperimenti in maniera tale da trovare risultati positivi, alle spese della validità dei risultati, e come sia probabile che alcuni ricercatori facciano uso di Pratiche di Ricerca Discutibili come l’HARKing (sezione 3.2). Rivolgendosi ai singoli ricercatori e alle riviste scientifiche, gli autori hanno poi sottolineato l’importanza di condurre replicazioni dirette e maxi-progetti di replicazione in questa disciplina. Infine, gli autori hanno fatto un appello ai membri della disciplina volto ad adottare pratiche di open science, al fine di permettere la riproducibilità e replicabilità dei risultati.[95]

Un altro fatto controverso e degno di nota per la scienza dello sport sta nella critica verso il metodo denominato “Magnitude-based inference”, come riportato dalla giornalista scientifica Christie Aschwanden. Il metodo, sviluppato nel 2016, è apparentemente di uso comune nella scienza dello sport, ed è basato sul mixare aspetti della statistica frequentista e quella bayesiana. Come riportato da Aschwanden, diversi statistici hanno criticato pesantemente il metodo, spiegando come sia sbagliato a livello matematico, e come abbia la potenzialità di generare un alto numero di falsi positivi.[96]

Nella gestione delle risorse idriche[modifica | modifica wikitesto]

Il professore d’ingegneria civile e ambientale James Hagge e colleghi hanno pubblicato uno studio nel 2019, dove hanno stimato che dei circa 2000 articoli presi in esame da 6 diverse riviste, solamente una percentuale tra lo 0.6% e il 6.8% sia effettivamente riproducibile.[97]

Impatto nel pubblico, nell'industria e per la politica[modifica | modifica wikitesto]

Ripercussioni politiche e cambiamento climatico[modifica | modifica wikitesto]

Come riportato dalla geologa, storica e professoressa ad Harvard Naomi Oreskes in un articolo pubblicato su Nature nel 2018, le preoccupazioni circa la non-replicabilità e non-riproducibilità dei risultati rischiano di venir strumentalizzate al fine di sminuire studi scientifici validi per ragioni politiche. L’esempio a cui Oreskes fa riferimento è una regola proposta dall’Agenzia per la Protezione Ambientale statunitenste, che porrebbe come criterio una totale trasparenza dei dati affinché uno studio scientifico possa venir utilizzato come base per le politiche dell’Agenzia. Nell’articolo, Oreskes ha spiegato come l’imposizione della regola sembri motivata principalmente da interessi politici legati al cambiamento clmatico, e che non sia appoggiata dalle maggiori organizzazioni scientifiche. Il problema rispetto ad una richiesta di totale trasparenza sta nel non considerare difficoltà d’implementazione quali: la non-disponibilità di dati per studi datati, L'impossibilità di rendere trasparenti certi dati per motivi di confidenzialità e privacy, e le tempistiche, costi e risorse necessarie a riportare trasparentemente dataset massivi. Alla luce di queste diverse problematiche, una serie di studi potrebbero non venir utilizzati per informare politiche volte a regolamentare l’impatto ambientale di certi fattori.[98] La strumentalizzazione è stata portata avanti dalla National Association of Scholars, associazione notoriamente conservatrice. Come riportato dall'accademico italiano Andrea Saltelli in un articolo del 2018, l’Association of Scholars collega lo stato di crisi nelle scienze alla contaminazione degli ambienti accademici con idee “progressiste e di sinistra” quali Neomarxismo, Femminismo radicale, Storicismo, Costruttivismo, Post-strutturalismo e Teologia della liberazione.[99] La regola è stata finalizzata e annunciata dal presidente dell’Agenzia per la Protezione Ambientale statunitense ad un meeting del Competitive Enterprise Institute, una think tank americana che supporta idee di liberalizzazione economica e contesta la reale pericolosità del cambiamento climatico.[100]

Consapevolezza e percezione nel pubblico[modifica | modifica wikitesto]

Il professore all’Università di Wroclaw Michal Bialek ha espresso preoccupazioni circa l’impatto che la crisi di replicazione potrebbe avere sulla percezione delle scienze psicologiche nell’opinione pubblica.[101] In questo senso, un sondaggio condotto tra la popolazione tedesca e pubblicato nel 2020, ha constatato come il 75% delle persone non avesse sentito dei diffusi fallimenti nel replicare studi scientifici. Il sondaggio ha inoltre mostrato che alla luce della crisi, la popolazione tedesca si sia dimostrata comunque positiva per ciò che riguarda l’affidabilità della scienza; solamente il 18% degl’intervistati ha dichiarato che i problemi relativi alla replicazione significhino che non si dovrebbe fare affidamento sulla scienza, il 65% si è trovato d'accordo con l’affermazione per cui il condurre studi di replicazione mostri che la scienza abbia modo di assicurarsi che la ricerca scientifica sia di qualità, e l’80% ha dichiarato di essere consapevole che la ricerca scientifica consista in parte in un processo di errori e relative correzioni.[102]

Implicazioni per l'industria farmaceutica[modifica | modifica wikitesto]

Come riportato da un articolo sul magazine online Pacific Standard, le aziende farmaceutiche stipulano spesso contratti con centri di ricerca privati al fine di finanziare studi di replicazione, o conducono loro stesse studi di replicazione di ricerca pre-clinica. Questo tipo di strategia è utile al fine di stabilire quali siano gli studi sperimentali maggiormente validi, e con maggior probabilità di produrre farmaci efficaci. I due esempi di maxi-progetti di replicazione condotti dalle aziende Amgen e Bayer rientrano in questo tipo di studi.

Soluzioni[modifica | modifica wikitesto]

Meta-scienza[modifica | modifica wikitesto]

Al fine di affrontare le problematiche evidenziate dalla crisi e di migliorare le pratiche scientifiche in generale, in epoca recente si è conformata come disciplina a sé stante la meta-ricerca (o meta-scienza). Secondo John Ioannidis e colleghi, la meta-ricerca si rifersce ad un campo di studio che ha come obbiettivo quello di studiare scientificamente la scienza stessa. Uno dei benefici della meta-ricerca come campo a sé stante è quello di unificare diversi sforzi fatti in parallelo in discipline scientifiche differenti, mirati a migliorare le pratiche di ricerca scientifica.[103]

Come riportato da Ioannidis e colleghi, la meta-ricerca si occupa di argomenti in 5 aree tematiche: metodologia, presentazione e report della ricerca, riproducibilità, processi di valutazione (e.g. studio del peer-reviewing), e studio degli incentivi per fare ricerca. Alla luce degli argomenti studiati, la meta-ricerca ha connessioni con molte altre discipline (e.g. storia e filosofia della scienza, sociologia della scienza, statistica, data science, et cetera).[103]

Nell’ambito della meta-ricerca sono state proposte diverse soluzioni per affrontare la crisi e migliorare le pratiche scientifiche, come la pre-registrazione degli studi, miglioramento degli standard di presentazione della ricerca, condivisione pubblica dei dati e protocolli di ricerca, stabilire una cultura della replicazione, et cetera.[103]

Un numero di associazioni è stato creato allo scopo di promuovere la meta-ricerca, come il Meta-Researcher Innovation Center at Stanford (METRICS) nel 2017[104], e ancor prima, sono state lanciate alcune iniziative allo scopo di raggiungere certi obbiettivi promossi dalla ricerca meta-scientifica, come la Enhancing the Quality and Transparency of health Research (EQUATOR).[105]

Affrontare il bias di pubblicazione con la pre-registrazione degli studi[modifica | modifica wikitesto]

Una delle proposte principali per arginare il bias di pubblicazione e l’utilizzo di PDR, è stata quella di promuovere la pre-registrazione degli studi. Come riportato dallo psicologo ed esperto di meta-scienza Marcus Munafò e colleghi, la pre-registrazione di uno studio consiste in una promessa d’impegno da parte dei ricercatori al registrare su una piattaforma certificata le ipotesi e il progetto sperimentale di uno studio, per poi pubblicarne i risultati sulla stessa piattaforma (qualora non sia possibile pubblicarli su una rivista scientifica). Ciò permette di arginare il bias di pubblicazione, in quanto i risultati dello studio vengono pubblicati e sono accessibili al pubblico aldilà del loro risultato; la pre-registrazione permette inoltre di arginare l’utilizzo di PDR, in quanto le ipotesi e i metodi sperimentali dello studio sono specificati prima di condurre le analisi e ottenere i risultati.[106]

Un concetto simile alla pre-registrazione sono i cosiddetti “Report di Replicazione Registrati” (RRR)[N 12]. L’idea degli RRR consiste fondamentalmente nel fatto che gli autori di uno studio, debbano presentare un rapporto dettagliato del progetto sperimentale e di analisi di una replicazione ai revisori di una rivista prima di condurre la replicazione. I revisori ne prendono visione, e stabiliscono se il progetto dello studio di replicazione sia sufficientemente simile all’esperimento originale, per poi garantire a priori degli eventuali risultati che lo studio di replicazione venga pubblicato. Ciò fa sì che da una parte, i ricercatori siano incentivati al condurre studi di replicazione, giacché ve ne è garantita la pubblicazione; dall’altra, disincentiva l’utilizzo di PDR, alla luce del fatto che chiunque possa prendere visione di quali fossero la metodologia e i metodi di analisi registrati prima di condurre l’esperimento e ottenere i risultati. Gli RRR si conformano generalmente come una serie di replicazioni dirette dello stesso effetto, condotte al fine ultimo di fornire una stima della dimensione di quest’ultimo.[107]

Certe riviste hanno adottato misure per incentivare la pre-registrazione e il condurre RRR. In un editoriale dell’edizione 2015 della rivista Psychological Science, il redattore Stephen Lindsay ha sottolineato l’importanza della pre-registrazione, dichiarando come lui, personalmente, non avrebbe più permesso di pubblicare studi non pre-registrati. Al fine di contrastare il bias di pubblicazione e di promuovere studi di qualità, Lindsey ha inoltre specificato che la rivista sarà particolarmente attenta con la presentazione alla rivista di studi con bassa potenza statistica, risultati sorprendenti, e p-value molto vicini allo 0.5.[108]

In generale, una lista di riviste scientifiche che hanno adottato la pre-registrazione e gli RRR è disponibile sulla pagina web “TOP Factor” del Center for Open Science.[109]

Passaggio a un paradigma di sistemi complessi[modifica | modifica wikitesto]

Come riportato dagli scienziati sociali Sebastian Wallot e Damian Kelty-Stephen, il paradigma dominante per ciò che riguarda la rappresentazione delle relazioni causali è ciò che viene definito "A Dinamiche di Componenti Dominanti" (DCD). In questo paradigma, le misurazioni comportamentali e neuropsicologiche sono "dominate" da un insieme finito di componenti che non variano nel tempo, che servono poi a spiegare la varianza di una variabile osservabile. L'esempio offerto dagli autori è quello per cui nell'azione di leggere il loro studio, quest'azione è spiegata causalmente sempre dallo stesso insieme di componenti (e.g. memoria di lavoro, memoria a lungo termine, memoria percettiva, et cetera). L'implicazione principale di questo modello è che un input dato ad una persona, verrà sempre mediato alla stessa maniera dagli stessi componenti, e verrà poi tradotto in un certo output. A livello teorico e statistico, Il paradigma causale DCD suppone che le misurazioni dei vari componenti di un processo psicologico o neuropsicologico siano indipendenti l'una dall'altra e ugualmente distribuite. Ciò permette di attribuire porzioni di varianza di una variabile osservabile a componenti distinti del processo causale. All'interno di questo paradigma, le relazioni causali sono quindi studiate attraverso modelli lineari.[110]

Gli autori sostengono invece la superiorità di un paradigma alternativo, il modello "A Dinamiche d'Interazione tra Componenti" (DIC). Quest'ultimo prevede che determinate strutture causali che stanno alla base del comportamento, emergano necessariamente e in maniera specifica rispetto al contesto in cui la persona agisce, e sono quindi totalmente dipendenti rispetto ad un'attività specifica. A differenza del precedente, questo modello non presuppone l'indipendenza delle misurazioni dei diversi componenti, ma ne presume invece l'interdipendenza. Secondo gli autori, una conseguenza di questo modello è che non vi è l'aspettativa di osservare strutture causali stabili e generalizzabili, in quanto le stesse sono altamente specifiche rispetto al contesto sperimentale. Ciò comporta a sua volta un cambiamento di aspettative per ciò che riguarda la replicazione degli esperimenti. Secondo Wallot e Kelty-Stephen, la replicazione sperimentale richiede necessariamente la stabilità di una certa architettura cognitiva che sta alla base di un effetto, come previsto dal DCD. Se, invece, si segue un modello diverso come il DIC, è invece pronosticabile che il funzionamento di una certa architettura cognitiva sia necessariamente influenzato da diversi dettagli del contesto sperimentale, da dettagli minimi sulla presentazione di certi stimoli, a dettagli macroscopici come il contesto culturale. Alla luce di questa sensibilità al contesto dei processi cogntivi e psicologici, l'aspettativa di poter replicare con facilità un esperimento è quindi malriposta. Gli autori propongono quindi un passaggio ad un paradigma di sistemi complessi che non prevede severi criteri di replicazione, a differenza di un paradigma basato su modelli lineari e componenti di un sistema causale totalmente indipendenti l'uno dall'altro.[110]

In via generale, diversi autori hanno criticato le presupposizioni dei metodi statistici in uso, che vedono le relazioni causali come appropriatamente spiegate da modelli lineari.[111][112][113]

Cambiamenti nell'istruzione[modifica | modifica wikitesto]

Un numero di ricercatori ha avanzato proposte riguardo a modifiche nel sistema d'istruzione universitaria al fine di affrontare la crisi. Per esempio, il professore a Stanford Micheal Frank e la professoressa del MIT Rebecca Saxe, hanno proposto di far condurre replicazioni di studi appena pubblicati agli studenti universitari. Secondo gli autori, nelle giuste condizioni, questa iniziativa permetterebbe di controllare sistematicamente la validità e l'affidabilità degli studi pubblicati, che a sua volta, sarebbe un ottimo fattore motivante per gli studenti nel seguire i corsi di metodologia.[114] Una proposta simile è stata fatta da Jon Grahe della Pacific Lutheran University di Washington, assieme ad un folto gruppo di colleghi da altre università americane.[115]

Come sottolineato dall'archeologo Ben Marwick e colleghi, il far condurre studi di replicazioni agli studenti sarebbe inoltre fondamentale per diminuire la distanza, quantomeno in archeologia, tra l'ideale scientifico per cui la replicazione dovrebbe essere largamente praticata, e la realtà attuale per cui molti ricercatori non hanno le abilità necessarie per condurre uno studio di replicazione. In questo senso, far condurre agli studenti studi di replicazione, permetterebbe di formare una nuova generazione di scienziati capace di condurre replicazioni e consapevole della loro importanza.[116]

Commentando la proposta di Frank e Saxe, Earp ed Everett hanno invece proposto che siano gli studenti di dottorato a dover, obbligatoriamente, condurre almeno una replicazione diretta di uno studio. Secondo gli autori, ciò porterebbe gli stessi benefici della proposta di Frank e Saxe, migliorandone alcune lacune, quali: la possibilità che gli studenti universitari non siano abbastanza formati per poter condurre studi di qualità, o il fatto che vi sarebbero meno limitazioni di tempo nel caso fossero studenti di dottorato a condurre le replicazioni (mentre per gli studenti universitari, vi sarebbero limitazioni dovute alla durata di un certo corso).[46]

Ridurre il valore richiesto per rivendicare la significatività di nuovi risultati[modifica | modifica wikitesto]

Una proposta per migliorare la non-replicabilità dei risultati sta nel rendere più rigide le soglie per cui i risultati vengono dichiarati statisticamente significativi. Un folto numero di scienziati ha sottoscritto e partecipato alla scrittura dell'articolo "Redefine statistical significance", pubblicato nella rivista Nature. Nell'articolo, gli autori propongono di cambiare la soglia convenzionalmente usata nei test d'ipotesi nulla (i.e. p < 0.05) in una soglia più rigida (i.e. p < 0.005). Questo cambiamento avrebbe l'effetto di diminuire in maniera decisiva il numero di falsi positivi, in quanto questa soglia riflette, in un test d'ipotesi, la probabilità di respingere incorrettamente l'ipotesi nulla. In un esempio mostrato dagli autori, nel caso con la più bassa probabilità che un'ipotesi testata sia vera a priori, la percentuale di falsi positivi sarebbe superiore al 60% utilizzando p < 0.05, contro un decisamente minore 20% nel caso si utilizzi p < 0.005 come soglia.[117]

Un secondo gruppo di accademici ha preso in esame e criticato la proposta di cui sopra. Secondo questi ultimi, l'adozione arbitraria della nuova soglia proposta (i.e. p < 0.005) non sarebbe giustificata per una serie di ragioni, quali: la mancata evidenza che la soglia attualmente in uso (p < 0.05) sia una delle cause principali della non-replicabilità dei risultati, il fatto che le argomentazioni a supporto dell'utilizzo di una nuova soglia non ne giustificano l'immediata e diffusa implementazione, e il fatto che i sostenitori del cambiamento da p < 0.05 a p < 0.005 non considerino una serie di conseguenze negative che questo cambiamento avrebbe. Più nel merito, le critiche si concentrano sul fatto che i sostenitori del cambio di soglia generalizzino il tasso di ipotesi vere a priori tra le diverse discipline, e che basino la loro argomentazione su dei parallelismi non giustificati con la statistica bayesiana. Tra le conseguenze negative, i critici evidenziano, ad esempio, come un abbassamento della soglia si tradurrebbe nella necessità di condurre studi con campioni molto più grandi, e ciò avrebbe come conseguenza pratica una riduzione del numero di replicazioni dirette, dovuto al necessario aumento di risorse necessarie per condurle. I critici concludono proponendo che una soluzione migliore sia che gli autori di uno studio specifichino una determinata soglia di significatività volta per volta, in maniera da fornire un'adeguata giustificazione per questa scelta, potenzialmente criticabile.[118]

Affrontare l'errata interpretazione dei p-value[modifica | modifica wikitesto]

Il farmacologo David Colquhoun, ha suggerito che un problema relativo alla non-replicabilità dei dati stia nell’errata interpretazione dei cosiddetti “p-value” usati nei test d’ipotesi nulla. Attraverso una simulazione dei risultati di 100.000 t-test, analizzando sia casi in cui si assume che l’ipotesi nulla sia vera, che casi in cui si assume che l’ipotesi alternativa sia vera con diverse potenze statistiche, Colquhuon ha mostrato come la distribuzione dei p-value sia altamente variabile. L’alta variabilità dei possibili p-value che si ottengono con studi consecutivi, specialmente nel caso in cui la potenza statistica di uno studio sia bassa, rende questa particolare statistica inadatta a segnalare la replicabilità di uno studio.[119]

Secondo Colquhuoh, un’ulteriore problematica relativa ai p-value sta nel fatto che, conducendo le simulazioni di cui sopra, sia possibile vedere come la probabilità che un p-value compreso tra 0.45 e 0.5 rifletta un falso positivo sia relativamente alta, con un aumento importante all’abbassarsi della probabilità a priori che gli effetti testati siano veri. Conseguentemente, l’aspettativa di replicare i risultati di un esperimento, se motivata da un p-value nello studio originale compreso nell’intervallo sopracitato, sarebbe malriposta, data l’alta probabilità che si sia trattato di un falso positivo.[119]

Un secondo fatto importante notato da Colquhoun rispetto all’interpretazione dei p-value ha a che fare con la pratica comune di interpretare i valori di p < 0.05 in relazione al rischio di ottenere un falso positivo, piuttosto che l’esatto p-value ottenuto nello studio. Colquhoun, attraverso la stessa procedura di simulazione menzionata sopra, mostra come la probabilità che un dato risultato sia un falso positivo sia molto più alta per un singolo p-value rispetto a quella di un intervallo di valori al di sotto di una certa soglia (e.g. p < 0.05). Secondo Colquhuon, quest’ultimo fatto è importante perché la situazione in cui si ottiene un singolo p-value è la tipica situazione di un singolo esperimento, ed è quella in cui un ricercatore/ricercatrice dovrebbe interrogarsi sulla probabilità che il valore ottenuto rifletta un falso positivo. Nell’esempio offerto dall’autore, per cui si assume che la probabilità a priori che un certo effetto sia vero è del 10%, la probabilità che un p-value esatto (e.g. p = 0.047) rifletta un falso positivo è del 76%, contro un 36% di probabilità che un p-value al di sotto di quella soglia (p < 0.047) rifletta un falso positivo.[120]

Al fine di permettere una miglior interpretazione dei p-value, e conseguentemente aspettative più attendibili rispetto alla replicabilità di un risultato, Colquhoun ha proposto di utilizzare un metodo di analisi e di report dei dati che permette di specificare la probabilità che un dato p-value rifletta un falso positivo rispetto ad una certa probabilità a priori che un effetto sia vero. Seguendo le proposte di altri autori, Colquhoun propone di usare un metodo basato su un’“argomentazione bayesiana inversa”. Nel metodo, il rischio di ottenere un falso positivo è specificato calcolando il rapporto di verosimiglianza di una certa osservazione rispetto alle due ipotesi (i.e. nulla e alternativa) alla luce della probabilità a priori che un effetto sia vero. L’aspetto “inverso” sta nello specificare anticipatamente una probabilità di rischio che il risultato sia un falso positivo (e.g. 5%), per poi calcolare invece la probabilità a priori che l’effetto sia vero. In altre parole, ciò permette di affermare che se la probabilità a priori di un effetto fosse di un determinato valore, il rischio di ottenere un falso positivo rispetto al p-value dato dall’esperimento sarebbe a sua volta una certa percentuale. In un esempio offerto da Colquhoun, per un p-value di p = 0.05, per avere un rischio del 5% che il p-value rifletta un falso positivo, la probabilità a priori dell’effetto studiato dovrebbe essere del 87%.[120]

Il fatto di calcolare una certa probabilità a priori a seconda del rischio desiderato, rappresenta una maniera per arginare il fatto che non sia possibile sapere realmente la probabilità a priori di un certo effetto. Il metodo è considerato valido perché permette a chi esamina i risultati di stabilire se la probabilità a priori specificata sia plausibile o meno. L’approccio proposto da Colquhoun è stato originariamente proposto dal fisico e accademico Robert Matthews nel 2001.[120][121]

Incoraggiare campioni di dimensioni maggiori[modifica | modifica wikitesto]

Alcune considerazioni e soluzioni in merito alla crisi si sono concentrate sulla necessità di aumentare le dimensioni dei campioni sia per gli studi originali, che per le replicazioni. Lo psicologo Scott Maxwell e colleghi fanno notare come uno dei motivi per cui gli studi di replicazione potrebbero fallire è da ritrovarsi in una bassa potenza statistica, che verrebbe a sua volta migliorata aumentando la dimensione del campione usato nella replicazione.[122] Altri autori hanno affermato come in generale, bisognerebbe mirare a condurre studi con campioni maggiori, in quanto studi in cui il campione usato non è sufficientemente grande tendono a sovrastimare la dimensione dell'effetto studiato. Conseguentemente, studi di replicazione che utilizzano dimensioni dell'effetto sovrastimate tendono a sottostimare le dimensioni del campione neccessarie ad ottenere una certa potenza statistica.[123][124][125]

Finanziamenti per gli studi di replicazione e per la meta-ricerca[modifica | modifica wikitesto]

Nel 2016, l'Organizzazione per la Ricerca Scientifica Olandese ha messo a dispozione 3 milioni di euro per progetti di ricerca volti a replicare o riprodurre la ricerca scientifica esistente. I finanziamenti sono stati stanziati per progetti di ricerca nelle scienze sociali e nella ricerca sulla salute. L'iniziativa è in particolar modo mirata al replicare studi scientifici particolarmente influenti, dove l'influenza di un dato studio viene valutata a seconda di criteri quali il numero di citazioni, la probabilità di unO studio di informare politiche istituzionali, l'attenzione mediatica ricevuta dallo stesso, o la presenza di uno studio nei programmi d'istruzione universitari.[126]

Nel 2013 la Laura e la John Arnold Foundation ha finanziato il lancio del Center for Open Science con una sovvenzione di $ 5,25 milioni e fino all'anno 2017 ha fornito ulteriori $10 milioni di finanziamenti.[127] La fondazione ha inoltre finanziato il lancio del Meta-Research Innovation Center at Stanford (METRICS) presso l'Università di Stanford, un centro di ricerca gestito dal sopracitato John Ioannidis e dall'epidemiologo e professore a Stanford Steven Goodman dedicato allo studiare modi per migliorare la validità e la trasparenza della ricerca scientifica.[104] Ha inoltre fornito finanziamenti per l'iniziativa AllTrials guidata in parte da Ben Goldacre.[127]

Condivisione pubblica dei dati[modifica | modifica wikitesto]

In un articolo pubblicato nel 2019, il ricercatore e responsabile di progetti scientifici all’Ospedale di Losanna Romain-Daniel Gosselin, ha sostenuto che la riproducibilità e replicabilità dei risultati prescinda necessariamente dalla completa trasparenza circa gli aspetti metodologici e le analisi statistiche dei singoli esperimenti. Secondo Gosselin, l’implementazione di linee guida sulla trasparenza degli esperimenti dovrebbe risultare più facile rispetto a politiche riguardanti cambiamenti sull’utilizzo di specifiche pratiche di ricerca e metodi statistici, e per questo motivo, sarebbe preferibile nel breve termine. Gosselin ha quindi proposto delle linee guida da lui stesso progettate sulla trasparenza delle analisi statistiche, sottolineando come sia necessario che per la loro adozione, le riviste scientifiche e i finanziatori dei progetti di ricerca incoraggino attivamente la loro implementazione.[128]

Il professore all’Università di Boston Micheal Pratt e colleghi hanno invece espresso preoccupazioni riguardo le richieste di trasparenza metodologica, enfatizzando che potrebbero non essere adatte se applicate alla ricerca di tipo qualitativo. L’argomentazione degli autori è fondamentalmente basata sul fatto che in certe aree di ricerca qualitativa, le assunzioni ontologiche non siano le stesse della ricerca quantitativa, e che di conseguenza, replicare gli studi non sia un criterio necesario per stabilire la legittimità della ricerca scientifica. Considerato il fatto che la replicabilità non sia necessaria, la necessità di assoluta trasparenza di uno studio viene meno nella ricerca qualitativa.[129]

In termini pratici, le richieste di trasparenza sarebbero inappropriate per la ricerca qualitativa, in quanto basata su diverse assunzioni epistemologiche (induttive, piuttosto che ipotetico-deduttive); in questo senso, pratiche di ricerca come l’HARKing, che verrebero viste come PDR nella ricerca quantitativa, basata sul dedurre e testare ipotesi, sono invece parte integrante deila ricerca qualitativa. Infine, nella ricerca qualitativa, la richiesta di condividere trasparentemente i dati di uno studio potrebbe violare le linee guida sul comportamento etico.[129]

Il sopracitato John Ioannidis, ha espresso un numero di preoccupazioni riguardo le richieste di condividere pubblicamente i dati sperimentali, e la relativa politica di assegnare dei badge per premiare chi li condivide.[130] Secondo Ioannidis, le problematiche di questo tipo di iniziativa, derivano dalla possibilità che siano, per lo più, i ricercatori maggiormente meticolosi a metterla in pratica. Giacché una delle funzioni del condividere i propri dati pubblicamente sta nel dare modo ad altri ricercatori di identificare eventuali errori, il fatto che siano primariamente i ricercatori più meticolosi a condividere i propri dati renderebbe, a detta di Ioannidis, l’iniziativa meno efficace. Ciò è dovuto al fatto che, al contrario, i ricercatori meno meticolosi, ovvero quelli che, intuitivamente, commettono più errori, sarebbero invece meno propensi a condividere i propri dati. Di conseguenza, un numero elevato di errori non verrebbe identificato. Sempre secondo Ioannidis, ciò rischierebbe, inoltre, di creare un paradosso per cui i ricercatori più meticolosi sarebbero quelli maggiormente esposti ad eventuali critiche.[130]

In via generale, diversi archivi online offrono la possibilità di effetuare l'upload di progetti sperimentali, dati e risultati, al fine di migliorare la riproducibilità degli esperimenti. Esempi includono l'Open Science Framework e il Registry of Research Data Repositories.[131][132]

Note[modifica | modifica wikitesto]

  1. ^ Il priming sociale può essere generalmente definito come l'influenza inconscia che l'attivazione di certe rappresentazioni cognitive può avere sul comportamento delle persone in ambito sociale. L'esatta definizione di questo sottocampo è però oggetto di disputa.
  2. ^ Dall'inglese "Questionable Research Practices" (QRPs).
  3. ^ In altre parole, in tal caso la replicazione non sarà in grado di trovare l'effetto trovato nell'originale.
  4. ^ L'analisi della potenza a priori è un metodo che permette di stimare il campione necessario per ottenere una certa potenza statistica in relazione alla dimensione dell'effetto che si vuole trovare.
  5. ^ Gli autori fanno notare come, assumendo che sia la correlazione media di una relazione studiata che la deviazione standard di una distribuzione di effetti siano 0.2, vi è una probabilità del 62% di trovare un effetto medio-grande (r > 0.3) o un effetto trascurabile (r < 0.1), entrambi radicalmente diversi dalla media della distribuzione.
  6. ^ 0.412 contro uno 0.389 in unità di differenza media standardizzata.
  7. ^ la statistica a cui Bird si riferisce come il “Resoconto della Probabilità dei Falsi Positivi”, complementare al Valore Predittivo dei Positivi citato da Ioannidis (2005)
  8. ^ Un esempio di analisi condotta a testimonianza di ciò è la cosiddetta “regressione lineare gerarchica”. In questo tipo di regressione, le variabili indipendenti vengono introdotte nel modello in diversi “step”. Così facendo, è possibile notare i cambiamenti nella porzione di varianza della variabile dipendente spiegata dai diversi step del modello. Con l’aggiuntà della sensibilità al contesto in un secondo step rispetto ad altri fattori, è stato quindi possibile notare cambiamenti significativi nella capacità del modello di spiegare la variabilità del successo nel replicare un esperimento).
  9. ^ In altre parole, casi in cui un trattamento è risultato efficace nello studio originale, ma inefficacein un eventuale studio successivo.
  10. ^ il 70% di questi nell'ambito della ricerca oncologica preclinica.
  11. ^ In caso il senso della frase non sia chiaro: s'intende che in relazione ai parametri usati per stabilire se un effetto fosse stato replicato o meno, solo il 46% degli effetti ha avuto più parametri secondo i quali è stato replicato piuttosto che non replicato.
  12. ^ In inglese "Registered Replication Report".
  1. ^ a b John P. A. Ioannidis, Why Most Published Research Findings Are False, in PLOS Medicine, vol. 2, n. 8, 1º agosto 2005, pp. e124, DOI:10.1371/journal.pmed.0020124, ISSN 1549-1277 (WC · ACNP), PMID 16060722.
  2. ^ (EN) Reproducibility Crisis Timeline: Milestones in Tackling Research Reliability, su Absolutely Maybe, 5 dicembre 2016. URL consultato il 12 febbraio 2022.
  3. ^ J. W. Schooler, Metascience could rescue the 'replication crisis', in Nature, vol. 515, n. 7525, 2014, p. 9, Bibcode:2014Natur.515....9S, DOI:10.1038/515009a, PMID 25373639.
  4. ^ Bloomberg, https://www.bloomberg.com/view/articles/2017-11-02/why-statistical-significance-is-often-insignificant. URL consultato il 7 novembre 2017.
  5. ^ Harold Pashler e Eric Jan Wagenmakers, Editors' Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?, in Perspectives on Psychological Science, vol. 7, n. 6, 2012, pp. 528–530, DOI:10.1177/1745691612465253, PMID 26168108.
  6. ^ The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/entries/scientific-reproducibility/#MetaScieEstaMoniEvalReprCris. URL consultato il 19 maggio 2019.
  7. ^ Staddon, John (2017). Scientific Method: How Science Works, Fails to Work or Pretends to Work. Taylor and Francis.
  8. ^ (EN) The New Yorker, https://www.newyorker.com/magazine/2010/12/13/the-truth-wears-off. URL consultato il 30 gennaio 2020.
  9. ^ (EN) The New Yorker, https://www.newyorker.com/tech/annals-of-technology/the-crisis-in-social-psychology-that-isnt. URL consultato il 30 gennaio 2020.
  10. ^ a b c d e f (EN) Stefan Schmidt, Shall we Really do it Again? The Powerful Concept of Replication is Neglected in the Social Sciences, in Review of General Psychology, vol. 13, n. 2, 2009-06, pp. 90–100, DOI:10.1037/a0015108. URL consultato il 23 maggio 2023.
  11. ^ a b c d (EN) Brian A. Nosek, Tom E. Hardwicke e Hannah Moshontz, Replicability, Robustness, and Reproducibility in Psychological Science, in Annual Review of Psychology, vol. 73, n. 1, 4 gennaio 2022, pp. 719–748, DOI:10.1146/annurev-psych-020821-114157. URL consultato il 23 maggio 2023.
  12. ^ a b c d Open Science Collaboration, Estimating the reproducibility of Psychological Science (PDF), in Science, vol. 349, n. 6251, 2015, pp. aac4716, DOI:10.1126/science.aac4716, PMID 26315443.
  13. ^ a b c d Richard A. Klein, Kate A. Ratliff e Michelangelo Vianello, Investigating Variation in Replicability, in Social Psychology, vol. 45, n. 3, 2014-05, pp. 142–152, DOI:10.1027/1864-9335/a000178. URL consultato il 5 luglio 2023.
  14. ^ a b c (EN) Colin F. Camerer, Anna Dreber e Eskil Forsell, Evaluating replicability of laboratory experiments in economics, in Science, vol. 351, n. 6280, 25 marzo 2016, pp. 1433–1436, DOI:10.1126/science.aaf0918. URL consultato il 17 luglio 2023.
  15. ^ a b (EN) Brian A. Nosek e Timothy M. Errington, What is replication?, in PLOS Biology, vol. 18, n. 3, 27 marzo 2020, pp. e3000691, DOI:10.1371/journal.pbio.3000691. URL consultato il 23 maggio 2023.
  16. ^ a b c d e (EN) Harold Pashler e Christine R. Harris, Is the Replicability Crisis Overblown? Three Arguments Examined, in Perspectives on Psychological Science, vol. 7, n. 6, 2012-11, pp. 531–536, DOI:10.1177/1745691612463401. URL consultato il 23 maggio 2023.
  17. ^ a b (EN) Christian S. Crandall e Jeffrey W. Sherman, On the scientific superiority of conceptual replications for scientific progress, in Journal of Experimental Social Psychology, vol. 66, 1º settembre 2016, pp. 93–99, DOI:10.1016/j.jesp.2015.10.002. URL consultato il 23 maggio 2023.
  18. ^ a b c d e f (EN) Etienne P. LeBel, Derek Berger e Lorne Campbell, Falsifiability is not optional., in Journal of Personality and Social Psychology, vol. 113, n. 2, 2017-08, pp. 254–261, DOI:10.1037/pspi0000106. URL consultato il 23 maggio 2023.
  19. ^ a b (EN) Rolf A. Zwaan, Alexander Etz e Richard E. Lucas, Making replication mainstream, in Behavioral and Brain Sciences, vol. 41, 2018, DOI:10.1017/S0140525X17001972. URL consultato il 23 maggio 2023.
  20. ^ (EN) Maarten Derksen e Jill Morawski, Kinds of Replication: Examining the Meanings of “Conceptual Replication” and “Direct Replication”, in Perspectives on Psychological Science, vol. 17, n. 5, 2022-09, pp. 1490–1505, DOI:10.1177/17456916211041116. URL consultato il 29 maggio 2023.
  21. ^ Karl R. Popper, Introduzione alla logica della scienza, in Logica della scoperta scientifica, collana Piccola Biblioteca Einaudi, traduzione di Mario Trinchero, 2012 [1959], pp. 26-27.
  22. ^ (EN) The Logic of Scientific Discovery, su Routledge & CRC Press. URL consultato il 20 luglio 2023.
  23. ^ a b c d (EN) Felipe Romero, Philosophy of science and the replicability crisis, in Philosophy Compass, vol. 14, n. 11, 2019-11, DOI:10.1111/phc3.12633. URL consultato il 5 luglio 2023.
  24. ^ (EN) John A. Bargh, Mark Chen e Lara Burrows, Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action., in Journal of Personality and Social Psychology, vol. 71, n. 2, 1996, pp. 230–244, DOI:10.1037/0022-3514.71.2.230. URL consultato il 5 luglio 2023.
  25. ^ (EN) Stéphane Doyen, Olivier Klein e Cora-Lise Pichon, Behavioral Priming: It's All in the Mind, but Whose Mind?, in Jan Lauwereyns (a cura di), PLoS ONE, vol. 7, n. 1, 18 gennaio 2012, pp. e29081, DOI:10.1371/journal.pone.0029081. URL consultato il 5 luglio 2023.
  26. ^ (EN) Harold Pashler, Noriko Coburn e Christine R. Harris, Priming of Social Distance? Failure to Replicate Effects on Social and Food Judgments, in PLOS ONE, vol. 7, n. 8, 29 agosto 2012, pp. e42510, DOI:10.1371/journal.pone.0042510. URL consultato il 5 luglio 2023.
  27. ^ (EN) Christine R. Harris, Noriko Coburn e Doug Rohrer, Two Failures to Replicate High-Performance-Goal Priming Effects, in PLOS ONE, vol. 8, n. 8, 16 agosto 2013, pp. e72467, DOI:10.1371/journal.pone.0072467. URL consultato il 5 luglio 2023.
  28. ^ (EN) David R. Shanks, Ben R. Newell e Eun Hee Lee, Priming Intelligent Behavior: An Elusive Phenomenon, in PLOS ONE, vol. 8, n. 4, 24 aprile 2013, pp. e56515, DOI:10.1371/journal.pone.0056515. URL consultato il 5 luglio 2023.
  29. ^ a b (EN) A failed replication draws a scathing personal attack from a psychology professor, su Science, 10 marzo 2012. URL consultato il 5 luglio 2023.
  30. ^ (EN) Daryl J. Bem, Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect., in Journal of Personality and Social Psychology, vol. 100, n. 3, 2011, pp. 407–425, DOI:10.1037/a0021524. URL consultato il 5 luglio 2023.
  31. ^ (EN) Eric-Jan Wagenmakers, Ruud Wetzels e Denny Borsboom, Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011)., in Journal of Personality and Social Psychology, vol. 100, n. 3, 2011-03, pp. 426–432, DOI:10.1037/a0022790. URL consultato il 5 luglio 2023.
  32. ^ (EN) Jeff Galak, Robyn A. LeBoeuf e Leif D. Nelson, Correcting the past: Failures to replicate psi., in Journal of Personality and Social Psychology, vol. 103, n. 6, 2012-12, pp. 933–948, DOI:10.1037/a0029709. URL consultato il 5 luglio 2023.
  33. ^ (EN) C. Glenn Begley e Lee M. Ellis, Raise standards for preclinical cancer research, in Nature, vol. 483, n. 7391, 2012-03, pp. 531–533, DOI:10.1038/483531a. URL consultato il 5 luglio 2023.
  34. ^ (EN) Florian Prinz, Thomas Schlange e Khusru Asadullah, Believe it or not: how much can we rely on published data on potential drug targets?, in Nature Reviews Drug Discovery, vol. 10, n. 9, 2011-09, pp. 712–712, DOI:10.1038/nrd3439-c1. URL consultato il 5 luglio 2023.
  35. ^ a b Joseph Simmons, Leif Nelson e Uri Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, in Psychological Science, vol. 22, n. 11, novembre 2011, pp. 1359–1366, DOI:10.1177/0956797611417632, ISSN 0956-7976 (WC · ACNP), PMID 22006061.
  36. ^ a b c d e (EN) Leslie K. John, George Loewenstein e Drazen Prelec, Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling, in Psychological Science, vol. 23, n. 5, 2012-05, pp. 524–532, DOI:10.1177/0956797611430953. URL consultato il 5 luglio 2023.
  37. ^ (EN) Harold Pashler e Eric–Jan Wagenmakers, Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?, in Perspectives on Psychological Science, vol. 7, n. 6, 2012-11, pp. 528–530, DOI:10.1177/1745691612465253. URL consultato il 5 luglio 2023.
  38. ^ (EN) Andrew Ahlgren, A modest proposal for encouraging replication., in American Psychologist, vol. 24, n. 4, 1969-04, pp. 471–471, DOI:10.1037/h0037798. URL consultato il 12 luglio 2023.
  39. ^ (EN) Nathaniel C. Smith, Replication studies: A neglected aspect of psychological research., in American Psychologist, vol. 25, n. 10, 1970-10, pp. 970–975, DOI:10.1037/h0029774. URL consultato il 12 luglio 2023.
  40. ^ a b (EN) Barbara A. Spellman, A Short (Personal) Future History of Revolution 2.0, in Perspectives on Psychological Science, vol. 10, n. 6, 2015-11, pp. 886–899, DOI:10.1177/1745691615609918. URL consultato il 12 luglio 2023.
  41. ^ a b (EN) Anthony G. Greenwald (a cura di), An editorial., in Journal of Personality and Social Psychology, vol. 33, n. 1, 1976-01, pp. 1–7, DOI:10.1037/h0078635. URL consultato il 12 luglio 2023.
  42. ^ Theodore D. Sterling, Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance--Or Vice Versa, in Journal of the American Statistical Association, vol. 54, n. 285, 1959, pp. 30–34, DOI:10.2307/2282137. URL consultato il 12 luglio 2023.
  43. ^ (EN) James L. Mills, Data Torturing, in New England Journal of Medicine, vol. 329, n. 16, 14 ottobre 1993, pp. 1196–1199, DOI:10.1056/NEJM199310143291613. URL consultato il 12 luglio 2023.
  44. ^ (EN) Jacob Cohen, The statistical power of abnormal-social psychological research: A review., in The Journal of Abnormal and Social Psychology, vol. 65, n. 3, 1962-09, pp. 145–153, DOI:10.1037/h0045186. URL consultato il 12 luglio 2023.
  45. ^ (EN) Robert Rosenthal, The file drawer problem and tolerance for null results., in Psychological Bulletin, vol. 86, n. 3, 1979-05, pp. 638–641, DOI:10.1037/0033-2909.86.3.638. URL consultato il 7 luglio 2023.
  46. ^ a b c d Jim Everett e Brian Earp, A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers, in Frontiers in Psychology, vol. 6, 2015, DOI:10.3389/fpsyg.2015.01152/full. URL consultato il 7 luglio 2023.
  47. ^ a b Monya Baker, 1,500 scientists lift the lid on reproducibility, vol. 533, Springer Nature, 25 maggio 2016, pp. 452–454. URL consultato il 21 maggio 2021.
  48. ^ a b Daniele Fanelli, Do pressures to publish increase scientists' bias? An empirical support from US States Data, in PloS One, vol. 5, n. 4, 21 aprile 2010, pp. e10271, DOI:10.1371/journal.pone.0010271. URL consultato il 7 luglio 2023.
  49. ^ a b (EN) Brian A. Nosek, Jeffrey R. Spies e Matt Motyl, Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability, in Perspectives on Psychological Science, vol. 7, n. 6, 2012-11, pp. 615–631, DOI:10.1177/1745691612459058. URL consultato il 7 luglio 2023.
  50. ^ a b c d O'Boyle E. H. e Götz M., Questionable Research Practices, in Jussim L., Krosnick J. A. e Stevens S. T. (a cura di), Research Integrity: Best Practices for the Social and Behavioral Sciences, Oxford Academic, 2022, pp. 261-294.
  51. ^ a b c (EN) Norbert L. Kerr, HARKing: Hypothesizing After the Results are Known, in Personality and Social Psychology Review, vol. 2, n. 3, 1998-08, pp. 196–217, DOI:10.1207/s15327957pspr0203_4. URL consultato il 7 luglio 2023.
  52. ^ MacCoun R. J., P-hacking: A Strategic Analysis, in Jussim L., Krosnick J. A. e Stevens S. T. (a cura di), Research Integrity: Best Practices for the Social and Behavioral Sciences, Oxford Academic, 2022.
  53. ^ a b c d e f g h i (EN) T. D. Stanley, Evan C. Carter e Hristos Doucouliagos, What meta-analyses reveal about the replicability of psychological research., in Psychological Bulletin, vol. 144, n. 12, 2018-12, pp. 1325–1346, DOI:10.1037/bul0000169. URL consultato il 7 luglio 2023.
  54. ^ a b (EN) Julian P. T. Higgins e Simon G. Thompson, Quantifying heterogeneity in a meta-analysis, in Statistics in Medicine, vol. 21, n. 11, 15 giugno 2002, pp. 1539–1558, DOI:10.1002/sim.1186. URL consultato il 10 luglio 2023.
  55. ^ a b c d (EN) Richard A. Klein, Michelangelo Vianello e Fred Hasselman, Many Labs 2: Investigating Variation in Replicability Across Samples and Settings, in Advances in Methods and Practices in Psychological Science, vol. 1, n. 4, 2018-12, pp. 443–490, DOI:10.1177/2515245918810225. URL consultato il 10 luglio 2023.
  56. ^ (EN) Ronald L. Wasserstein e Nicole A. Lazar, The ASA Statement on p -Values: Context, Process, and Purpose, in The American Statistician, vol. 70, n. 2, 2 aprile 2016, pp. 129–133, DOI:10.1080/00031305.2016.1154108. URL consultato il 7 luglio 2023.
  57. ^ a b c d Jay J. Van Bavel, Peter Mende-Siedlecki e William J. Brady, Contextual sensitivity in scientific reproducibility, in Proceedings of the National Academy of Sciences of the United States of America, vol. 113, n. 23, 2016, pp. 6454–6459. URL consultato il 10 luglio 2023.
  58. ^ (EN) Martin Schweinsberg, Nikhil Madan e Michelangelo Vianello, The pipeline project: Pre-publication independent replications of a single laboratory's research pipeline, in Journal of Experimental Social Psychology, vol. 66, 1º settembre 2016, pp. 55–67, DOI:10.1016/j.jesp.2015.10.001. URL consultato il 10 luglio 2023.
  59. ^ (EN) Nature Video, Scientific American, https://www.scientificamerican.com/video/is-there-a-reproducibility-crisis-in-science/. URL consultato il 15 agosto 2019.
  60. ^ Falk Leichsenring, Allan Abbass e Mark J. Hilsenroth, Biases in research: risk factors for non-replicability in psychotherapy and pharmacotherapy research, in Psychological Medicine, vol. 47, n. 6, aprile 2017, pp. 1000–1011, DOI:10.1017/S003329171600324X, PMID 27955715.
  61. ^ Michael P. Hengartner, Raising Awareness for the Replication Crisis in Clinical Psychology by Focusing on Inconsistencies in Psychotherapy Research: How Much Can We Rely on Published Findings from Efficacy Trials?, in Frontiers in Psychology, vol. 9, Frontiers Media, 28 febbraio 2018, p. 256, DOI:10.3389/fpsyg.2018.00256, PMID 29541051.
  62. ^ Michael C. Frank, Elika Bergelson e Christina Bergmann, A Collaborative Approach to Infant Research: Promoting Reproducibility, Best Practices, and Theory‐Building, in Infancy, vol. 22, n. 4, 9 marzo 2017, pp. 421–435, DOI:10.1111/infa.12182, PMID 31772509.
  63. ^ Matthew C. Makel e Jonathan A. Plucker, Facts Are More Important Than Novelty: Replication in the Education Sciences, in Educational Researcher, vol. 43, n. 6, 1º agosto 2014, pp. 304–316, DOI:10.3102/0013189X14545513. URL consultato il 19 dicembre 2018.
  64. ^ (EN) Klaus Fiedler e Norbert Schwarz, Questionable Research Practices Revisited, in Social Psychological and Personality Science, vol. 7, n. 1, 2016-01, pp. 45–52, DOI:10.1177/1948550615612150. URL consultato il 15 luglio 2023.
  65. ^ a b (EN) Patrick E. Shrout e Joseph L. Rodgers, Psychology, Science, and Knowledge Construction: Broadening Perspectives from the Replication Crisis, in Annual Review of Psychology, vol. 69, n. 1, 4 gennaio 2018, pp. 487–510, DOI:10.1146/annurev-psych-122216-011845. URL consultato il 15 luglio 2023.
  66. ^ Press release UvT 7 September 2011, su web.archive.org, 2 aprile 2012. URL consultato il 15 luglio 2023 (archiviato dall'url originale il 2 aprile 2012).
  67. ^ Dutch University Sacks Social Psychologist Over Faked Data - ScienceInsider, su web.archive.org, 30 settembre 2011. URL consultato il 15 luglio 2023 (archiviato dall'url originale il 30 settembre 2011).
  68. ^ Wayback Machine (PDF), su web.archive.org. URL consultato il 15 luglio 2023 (archiviato dall'url originale il 27 giugno 2016).
  69. ^ (EN) Author Shannon Palus, Diederik Stapel now has 58 retractions, su Retraction Watch, 8 dicembre 2015. URL consultato il 15 luglio 2023.
  70. ^ (EN) Daniele Fanelli, How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data, in PLOS ONE, vol. 4, n. 5, 29 mag 2009, pp. e5738, DOI:10.1371/journal.pone.0005738. URL consultato il 15 luglio 2023.
  71. ^ (EN) Eric Eich, Business Not as Usual, in Psychological Science, vol. 25, n. 1, 2014-01, pp. 3–6, DOI:10.1177/0956797613512465. URL consultato il 15 luglio 2023.
  72. ^ (EN) Simine Vazire, Editorial, in Social Psychological and Personality Science, vol. 7, n. 1, 2016-01, pp. 3–7, DOI:10.1177/1948550615603955. URL consultato il 15 luglio 2023.
  73. ^ (EN) TOP Factor, su topfactor.org. URL consultato il 15 luglio 2023.
  74. ^ Perspectives on Psychological Science, volume 7, issue 6, su journals.sagepub.com.
  75. ^ (EN) Social Psychology: Vol 45, No 3, su Social Psychology. URL consultato il 15 luglio 2023.
  76. ^ (EN) Author Alison McCook, “I placed too much faith in underpowered studies:” Nobel Prize winner admits mistakes, su Retraction Watch, 20 febbraio 2017. URL consultato il 15 luglio 2023.
  77. ^ (EN) Ed Yong, Nobel laureate challenges psychologists to clean up their act, in Nature, 3 ottobre 2012, DOI:10.1038/nature.2012.11535. URL consultato il 15 luglio 2023.
  78. ^ Kahneman's letter (PDF), su static-content.springer.com.
  79. ^ a b (EN) Jesse Singal, Inside Psychology’s ‘Methodological Terrorism’ Debate, su The Cut, 12 ottobre 2016. URL consultato il 16 luglio 2023.
  80. ^ (EN) APS Past President Susan T. Fiske, A Call to Change Science’s Culture of Shaming, in APS Observer, vol. 29, 31 ottobre 2016. URL consultato il 16 luglio 2023.
  81. ^ (EN) Rafi Letzter, Scientists are furious after a famous psychologist accused her peers of 'methodological terrorism', su Business Insider. URL consultato il 16 luglio 2023.
  82. ^ (EN) What has happened down here is the winds have changed | Statistical Modeling, Causal Inference, and Social Science, su statmodeling.stat.columbia.edu. URL consultato il 16 luglio 2023.
  83. ^ a b (EN) Matthew C. Makel, Jonathan A. Plucker e Boyd Hegarty, Replications in Psychology Research: How Often Do They Really Occur?, in Perspectives on Psychological Science, vol. 7, n. 6, 2012-11, pp. 537–542, DOI:10.1177/1745691612460688. URL consultato il 15 luglio 2023.
  84. ^ John P. A. Ioannidis, Contradicted and initially stronger effects in highly cited clinical research, in JAMA, vol. 294, n. 2, 13 luglio 2005, pp. 218–228, DOI:10.1001/jama.294.2.218. URL consultato il 16 luglio 2023.
  85. ^ a b (EN) C. Glenn Begley e Lee M. Ellis, Raise standards for preclinical cancer research, in Nature, vol. 483, n. 7391, 2012-03, pp. 531–533, DOI:10.1038/483531a. URL consultato il 16 luglio 2023.
  86. ^ C. Glenn Begley, Six red flags for suspect work, in Nature, vol. 497, n. 7450, 22 maggio 2013, pp. 433–434, DOI:10.1038/497433a. URL consultato il 16 luglio 2023.
  87. ^ (EN) Aaron Mobley, Suzanne K. Linder e Russell Braeuer, A Survey on Data Reproducibility in Cancer Research Provides Insights into Our Limited Ability to Translate Findings from the Laboratory to the Clinic, in Hirofumi Arakawa (a cura di), PLoS ONE, vol. 8, n. 5, 15 maggio 2013, pp. e63221, DOI:10.1371/journal.pone.0063221. URL consultato il 16 luglio 2023.
  88. ^ (EN) Center for Open Science, Reproducibility Project: Cancer Biology, su www.cos.io. URL consultato il 16 luglio 2023.
  89. ^ a b (EN) John E. Hunter, The Desperate Need for Replications, in Journal of Consumer Research, vol. 28, n. 1, 2001-06, pp. 149–158, DOI:10.1086/321953. URL consultato il 17 luglio 2023.
  90. ^ (EN) J. Scott Armstrong e Kesten C. Green, Guidelines for Science: Evidence and Checklists, n. 181, 24 gennaio 2017. URL consultato il 17 luglio 2023.
  91. ^ (EN) Sheena S. Iyengar e Mark R. Lepper, When choice is demotivating: Can one desire too much of a good thing?, in Journal of Personality and Social Psychology, vol. 79, n. 6, 2000-12, pp. 995–1006, DOI:10.1037/0022-3514.79.6.995. URL consultato il 17 luglio 2023.
  92. ^ (EN) Benjamin Scheibehenne, Rainer Greifeneder e Peter M. Todd, Can There Ever Be Too Many Options? A Meta-Analytic Review of Choice Overload, in Journal of Consumer Research, vol. 37, n. 3, 2010-10, pp. 409–425, DOI:10.1086/651235. URL consultato il 17 luglio 2023.
  93. ^ (EN) Thomas Aichner, Paolo Coletti e Cipriano Forza, Effects of Subcultural Differences on Country and Product Evaluations: A Replication Study, in Journal of Global Marketing, vol. 29, n. 3, 26 maggio 2016, pp. 115–127, DOI:10.1080/08911762.2015.1138012. URL consultato il 17 luglio 2023.
  94. ^ (EN) John P. A. Ioannidis, T. D. Stanley e Hristos Doucouliagos, The Power of Bias in Economics Research, in The Economic Journal, vol. 127, n. 605, 1º ottobre 2017, pp. F236–F265, DOI:10.1111/ecoj.12461. URL consultato il 17 luglio 2023.
  95. ^ (EN) Israel Halperin, Andrew D. Vigotsky e Carl Foster, Strengthening the Practice of Exercise and Sport-Science Research (XML), in International Journal of Sports Physiology and Performance, vol. 13, n. 2, pp. 127–134, DOI:10.1123/ijspp.2017-0322. URL consultato il 17 luglio 2023.
  96. ^ (EN) https://facebook.com/ChristieAschwandenOfficial, How Shoddy Statistics Found A Home In Sports Research, su FiveThirtyEight, 16 maggio 2018. URL consultato il 17 luglio 2023.
  97. ^ (EN) James H. Stagge, David E. Rosenberg e Adel M. Abdallah, Assessing data availability and research reproducibility in hydrology and water resources, in Scientific Data, vol. 6, n. 1, 26 febbraio 2019, pp. 190030, DOI:10.1038/sdata.2019.30. URL consultato il 17 luglio 2023.
  98. ^ (EN) Naomi Oreskes, Beware: transparency rule is a Trojan Horse, in Nature, vol. 557, n. 7706, 22 maggio 2018, pp. 469–469, DOI:10.1038/d41586-018-05207-9. URL consultato il 17 luglio 2023.
  99. ^ (EN) Saltelli Andrea, Why science’s crisis should not become a political battling ground, in Futures, vol. 104, 1º dicembre 2018, pp. 85–90, DOI:10.1016/j.futures.2018.07.006. URL consultato il 17 luglio 2023.
  100. ^ EPA finalizes rule to limit science behind public health safeguards, su washingtonpost.com.
  101. ^ (EN) Michał Białek, Replications can cause distorted belief in scientific progress, in Behavioral and Brain Sciences, vol. 41, 2018, pp. e122, DOI:10.1017/S0140525X18000584, ISSN 0140-525X (WC · ACNP), PMID 31064528.
  102. ^ (EN) Niels G. Mede, Mike S. Schäfer e Ricarda Ziegler, The "replication crisis" in the public eye: Germans' awareness and perceptions of the (ir)reproducibility of scientific research, in Public Understanding of Science, vol. 30, n. 1, 2020, pp. 91–102, DOI:10.1177/0963662520954370, PMID 32924865.
  103. ^ a b c John P. A. Ioannidis, Daniele Fanelli e Debbie Drake Dunne, Meta-research: Evaluation and Improvement of Research Methods and Practices, in PLOS Biology, vol. 13, n. 10, 2 ottobre 2015, pp. –1002264, DOI:10.1371/journal.pbio.1002264, ISSN 1545-7885 (WC · ACNP), PMID 26431313.
  104. ^ a b (EN) Meta Research Innovation Center at Stanford, su metrics.stanford.edu. URL consultato il 19 luglio 2023.
  105. ^ EQUATOR Network | Enhancing the QUAlity and Transparency Of Health Research, su www.equator-network.org. URL consultato il 19 luglio 2023.
  106. ^ (EN) Marcus R. Munafò, Brian A. Nosek e Dorothy V. M. Bishop, A manifesto for reproducible science, in Nature Human Behaviour, vol. 1, n. 1, 10 gennaio 2017, DOI:10.1038/s41562-016-0021. URL consultato il 18 luglio 2023.
  107. ^ psychologicalscience.org, http://www.psychologicalscience.org/index.php/replication. URL consultato il 13 novembre 2015.
  108. ^ D. Stephen Lindsay, Replication in Psychological Science, in Psychological Science, vol. 26, n. 12, 9 novembre 2015, pp. 1827–32, DOI:10.1177/0956797615616374, ISSN 0956-7976 (WC · ACNP), PMID 26553013.
  109. ^ (EN) TOP Factor, su topfactor.org. URL consultato il 18 luglio 2023.
  110. ^ a b (EN) Sebastian Wallot e Damian G. Kelty-Stephen, Interaction-Dominant Causation in Mind and Brain, and Its Implication for Questions of Generalization and Replication, in Minds and Machines, vol. 28, n. 2, 1º giugno 2018, pp. 353–374, DOI:10.1007/s11023-017-9455-0, ISSN 1572-8641 (WC · ACNP).
  111. ^ (EN) Alexander F. Siegenfeld e Yaneer Bar-Yam, An Introduction to Complex Systems Science and Its Applications, in Complexity, vol. 2020, 27 luglio 2020, pp. e6105872, DOI:10.1155/2020/6105872. URL consultato il 18 luglio 2023.
  112. ^ (EN) Peter C.M. Molenaar, On the implications of the classical ergodic theorems: Analysis of developmental processes has to focus on intra-individual variation, in Developmental Psychobiology, vol. 50, n. 1, 2008-01, pp. 60–69, DOI:10.1002/dev.20262. URL consultato il 18 luglio 2023.
  113. ^ (EN) Wander M. Lowie e Marjolijn H. Verspoor, Individual Differences and the Ergodicity Problem: Individual Differences and Ergodicity, in Language Learning, vol. 69, 2019-03, pp. 184–206, DOI:10.1111/lang.12324. URL consultato il 18 luglio 2023.
  114. ^ Michael C. Frank e Rebecca Saxe, Teaching Replication, in Perspectives on Psychological Science, vol. 7, n. 6, 1º novembre 2012, pp. 600–604, DOI:10.1177/1745691612460686, ISSN 1745-6916 (WC · ACNP), PMID 26168118.
  115. ^ Jon E. Grahe, Alan Reifman e Anthony D. Hermann, Harnessing the Undiscovered Resource of Student Research Projects, in Perspectives on Psychological Science, vol. 7, n. 6, 1º novembre 2012, pp. 605–607, DOI:10.1177/1745691612459057, ISSN 1745-6916 (WC · ACNP), PMID 26168119.
  116. ^ Ben Marwick, Li-Ying Wang e Ryan Robinson, How to Use Replication Assignments for Teaching Integrity in Empirical Archaeology, in Advances in Archaeological Practice, vol. 8, 22 ottobre 2019, pp. 78–86, DOI:10.1017/aap.2019.38.
  117. ^ Daniel J. Benjamin e James O. Berger, Redefine statistical significance, in Nature Human Behaviour, vol. 2, n. 1, 2018, pp. 6–10, DOI:10.1038/s41562-017-0189-z, PMID 30980045.
  118. ^ (EN) Daniel Lakens, Federico G. Adolfi e Casper J. Albers, Justify your alpha, in Nature Human Behaviour, vol. 2, n. 3, marzo 2018, pp. 168–171, DOI:10.1038/s41562-018-0311-x, ISSN 2397-3374 (WC · ACNP).
  119. ^ a b David Colquhoun, An investigation of the false discovery rate and the misinterpretation of p-values, in Royal Society Open Science, vol. 1, n. 3, 2015, p. 140216, Bibcode:2014RSOS....140216C, DOI:10.1098/rsos.140216, PMID 26064558, arXiv:1407.5296.
  120. ^ a b c David Colquhoun, The reproducibility of research and the misinterpretation of p-values, in Royal Society Open Science, vol. 4, n. 12, 2017, p. 171085, DOI:10.1098/rsos.171085, PMID 29308247.
  121. ^ R. A. J. Matthews, Why should clinicians care about Bayesian methods?, in Journal of Statistical Planning and Inference, vol. 94, 2001, pp. 43–58, DOI:10.1016/S0378-3758(00)00232-9.
  122. ^ Scott E. Maxwell, Michael Y. Lau e George S. Howard, Is psychology suffering from a replication crisis? What does "failure to replicate" really mean?, in American Psychologist, vol. 70, n. 6, 2015, pp. 487–498, DOI:10.1037/a0039400, PMID 26348332.
  123. ^ Joanna IntHout, John P. A. Ioannidis e George F. Borm, Small studies are more heterogeneous than large ones: a meta-meta-analysis, in Journal of Clinical Epidemiology, vol. 68, n. 8, 2015, pp. 860–869, DOI:10.1016/j.jclinepi.2015.03.017, PMID 25959635.
  124. ^ Katherine S. Button, John P. A. Ioannidis e Claire Mokrysz, Power failure: why small sample size undermines the reliability of neuroscience, in Nature Reviews Neuroscience, vol. 14, n. 5, 1º maggio 2013, pp. 365–376, DOI:10.1038/nrn3475, ISSN 1471-003X (WC · ACNP), PMID 23571845.
  125. ^ (EN) Anthony G. Greenwald, Consequences of prejudice against the null hypothesis (PDF), in Psychological Bulletin, vol. 82, n. 1, 1975, pp. 1–20, DOI:10.1037/h0076157.
  126. ^ NWO makes 3 million available for Replication Studies pilot, su web.archive.org, 11 marzo 2018. URL consultato il 19 luglio 2023 (archiviato dall'url originale l'11 marzo 2018).
  127. ^ a b Sam Apple, The Young Billionaire Behind the War on Bad Science, in Wired, 22 gennaio 2017.
  128. ^ Romain D. Gosselin, Statistical Analysis Must Improve to Address the Reproducibility Crisis: The ACcess to Transparent Statistics (ACTS) Call to Action, in BioEssays, vol. 42, n. 1, 2019, p. 1900189, DOI:10.1002/bies.201900189, PMID 31755115.
  129. ^ a b (EN) Michael G. Pratt, Sarah Kaplan e Richard Whittington, Editorial Essay: The Tumult over Transparency: Decoupling Transparency from Replication in Establishing Trustworthy Qualitative Research, in Administrative Science Quarterly, vol. 65, n. 1, 2020-03, pp. 1–19, DOI:10.1177/0001839219887663. URL consultato il 18 luglio 2023.
  130. ^ a b John P.A. Ioannidis, Anticipating consequences of sharing raw data and code and of awarding badges for sharing, in Journal of Clinical Epidemiology, vol. 70, 2016-02, pp. 258–260, DOI:10.1016/j.jclinepi.2015.04.015. URL consultato il 19 luglio 2023.
  131. ^ OSF, su osf.io. URL consultato il 18 luglio 2023.
  132. ^ Home | re3data.org, su www.re3data.org. URL consultato il 18 luglio 2023.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]