Ancora sul p-value

Donata Marasini, Piero Quatto

Dipartimento di Economia, Metodi Quantitativi e Strategie di impresa, Università Milano-Bicocca

 

La dichiarazione sul p-value dell’American Statistical Association (ASA) è già stata riportata in un precedente lavoro di B. Liseo, ma, visto l’interesse suscitato a livello internazionale, merita un approfondimento.

La rivista Ecology nel 2014 ha pubblicato una serie di lavori, alcuni pro p-value, pur sottolineando interpretazioni non corrette, altri decisamente contrari per la presenza di lacune, sostenendo l’esclusività di approcci alternativi come quello bayesiano o l’Akaike Information Criterion.

Nell’editoriale del gennaio 2015, Basic and Applied Social Psychology ha annunciato che il p-value e in generale i test di significatività sono banditi come strumenti di “inferenza”, rivalutando la statistica descrittiva, le misure di effetto e incoraggiando i campioni numerosi, ma restando  prudente sulle procedure bayesiane. A un anno di distanza l’editoriale ha ribadito la sua contrarietà al p-value, sottolineando il fatto che il solo p-value non risulta assolutamente conclusivo.

Nel 2015, l’ASA è  entrata ufficialmente nel merito della discussione a proposito dell’ argomento e nel marzo 2016 è pervenuta a una dichiarazione pubblicata su The American Statistician nel giugno 2016.

L’European Journal of Epidemiology nell’aprile 2016 ha pubblicato un articolo (Greenland et al.) come materiale di supporto alla dichiarazione ASA. The Royal Statistical Society nelle web news dichiara il proprio accordo con l’iniziativa dell’ASA, affermando che per quanto riguarda l’impiego dei p-value occorre “to educate people about their uses and limitations”. Sul Blog Retraction Watch, l’Executive Director di  ASA, ha sostenuto: “If the statement succeeds in its purpose, we will know it because journals will stop using statistical significance to determine whether to accept an article”, sottolineando una prassi ormai consolidata nella scelta dei lavori da pubblicare o non pubblicare. Interessante è la rassegna (Chavalarias et al.) del 2016 che, analizzando le banche dati Medline e PubMed Central dal 1990 al 2015, riscontra una concentrazione di valori del p-value “significativi” intorno a 0.05 e 0.001.

I sei  punti della dichiarazione ASA che denunciano le forzature del p-value sono di seguito riportati e commentati brevemente.

Nel  punto 1 (p-values can indicate how incompatible the data are with a specified statistical model) si ribadisce che  tanto più piccolo è il p-value tanto più elevata è l’incompatibilità dei dati con l’ipotesi da verificare o, come viene affermato nel materiale supplementare, tanto più sono inusuali i dati se ogni assunto, oltre l’ipotesi da verificare, è corretto.

Il punto 2 (p-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone) fa riferimento all’inferenza inversa (inversione del dato sperimentale con l’ipotesi) e afferma che un p-value “grande” non è la probabilità che il solo caso ha prodotto un particolare effetto perché, accanto al caso, possono intervenire tutti gli assunti che sono stati considerati nell’esperimento. Nel  punto 3 (scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold) la soglia  “incriminata” è 0.05 che ovviamente non può portare a conclusioni circa la falsità o la verità di un’ipotesi; un piccolo/grande valore di p avvisa che i dati sono inusuali/non inusuali rispetto a tutti gli assunti.

Il punto 4 (proper inference requires full reporting and transparency) sottolinea che riportare il solo p-value rende quest’ultimo difficilmente interpretabile e impoverisce drammaticamente l’analisi statistica esponendola alla discutibile pratica del p-hacking (ricerca della sola significatività, a scapito di qualunque altro risultato).

Nel punto 5 (a p-value, or statistical significance, does not measure the size of an effect or the importance of a result)  si intende che piccoli valori del p-value non  implicano la presenza di effetti importanti, così come grandi valori non implicano la mancanza di effetti.

Con il punto 6 (by itself, a p-value does not provide a good measure of evidence regarding a model or  hypothesis), si afferma che  un p-value non è una buona misura dell’evidenza di un’ipotesi; un p-value intorno a 0.05 può solo offrire una debole evidenza contro l’ipotesi da verificare, così come un valore relativamente sostenuto di p non implica evidenza a favore  dell’ipotesi nulla perché possono esistere altre ipotesi coerenti con i dati ottenuti. Nell’interessante lavoro di Greenland et al. questo punto viene articolato mettendo a confronto due situazioni con uguale p-value ma con evidenza scientifica molto diversa.

In conclusione l’ASA propone di integrare il p-value con altre procedure consolidate come la stima insieme agli intervalli di confidenza, i metodi Bayesiani, il fattore di Bayes, il “decision-theoretic modeling” e il “false discovery rate”.

A tutt’oggi sulle linee guida di  alcune riviste si trovano indicazioni del tipo “Exact p values should be provided, unless p<0·0001” o “Exact p-values should be reported for all results between .001 and .249”. Molti ricercatori suggeriscono soglie come 0.005 (statistically significant) e 0.001  (highly statistically significant), mentre nella Fisica la soglia è intorno a , corrispondente al famoso 5 sigma relativo a una variabile casuale normale, adottato come protezione verso “scoperte” che potrebbero erroneamente falsificare alcune leggi fondamentali della Fisica.

 

Riferimenti bibliografici

Chavalarias D,Wallach JD, LI AH, Ioannidis JP, (2016), Evolution of Reporting P Values in the Biomedical Literature,1990-2015, JAMA, 315 (11), 1141-8

Greenland S, Senn SJ, Rothman KR, Carlin JB, Poole C, Goodman SN, Altman DG, (2016) Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, European Journal of Epidemiology 31 (5),337–350

  1. Liseo, L’era post valore p, 23.6.2016, Statistica&Società.

The ASA’s Statement on p-values: Context, Process, and Purpose, The American Statistician, 70 (2), 2016.

 

 

Facebooktwitterlinkedinmail