La scienza dei dati e il COVID-19

Maria Gabriella Grassia

Intervista a Carlo Lauro, Presidente dell’ APEF(Associazione dei Professori Emeriti della Federico II) su alcuni temi fi grande attualità come fake news, qualità dei dati e data journalism.

Benjamin Disraeli affermava: ”Ci sono tre modi di mentire le bugie, le menzogne e le statistiche”. Questa frase torna oggi di grande attualità. Professore Lauro, ai tempi del ai tempi del Covid-19 chi può salvarci dal diluvio dei dati, dagli analisti dei dati della domenica o dai tanti falsi profeti che si esercitano in previsioni poco probabili sull’andamento della pandemia?

In modo stringato potrei rispondere lo “scienziato dei dati”. Questa figura, è oggi internazionalmente riconosciuta come la professione più sexy e meglio retribuita degli ultimi 20 anni.

“La Data Science” costituisce un approccio interdisciplinare per far fronte alle nuove sfide poste dalla società dell’informazione, basato principalmente sui metodi della Statistica e della Scienza computazionale opportunamente integrati dalla Conoscenza dei diversi settori per dare significato ai dati. La Statistica rappresenta la logica della Scienza dei dati, laddove la Scienza computazionale ne rappresenta il linguaggio. La Conoscenza dei vari settori di interesse costituisce il prerequisito di una scienza dei dati. Pertanto, da questo punto di vista, sarebbe preferibile fare ricorso a esperti di una SCIENZA DEI DATI PER LA SALUTE. Qui competenze in Medicina e nelle sue branche dell’Epidemiologia, dell’Immunologia, della Virologia, della Organizzazione Sanitaria sono ovviamente imprescindibili nelle diverse fasi dalla progettazione della ricerca alla raccolta dei dati, dalla elaborazione dei dati alla interpretazione dei risultati I dati non sono semplicemente numeri anonimi. La Scienza dei dati sviluppa e/o adotta metodologie appropriate ai fini della traduzione dei dati in informazione, alla estrazione della conoscenza e alla sua rappresentazione in modelli per finalità previsionali e supportare processi decisionali, in una realtà sempre più complessa spesso caratterizzata da grandi quantità di dati (big data) di vari tipi (numerici, ordinali, nominali, simbolici dati, testi, immagini, flussi di dati, dati a più vie, reti ecc.), provenienti da fonti disparate (sondaggi, dati ufficiali, social media, sensori, transazioni, dati aperti).

Professore Lauro, nei talk show televisivi di questo periodo si è spesso discusso di qualità dei dati e dell’informazione come una grande criticità dei processi cognitivi e decisionali in materia di Covid-19. Ha questo a che vedere con il noto detto “Garbage in, Garbage out” di George Fuechsel?

Assolutamente d’accordo con i rischi che derivano dall’uso di dati e informazioni di cattiva qualità non solo nella comunicazione dei risultati delle analisi ma anche nelle conseguenti decisioni. Non saranno elaborazioni smart o sofisticati modelli a restituire qualità a dati e informazioni che ne sono privi.

Al fine di parlare di qualità dei dati e dell’informazione vale la pena sottolineare la differenza tra questi due concetti spesso utilizzati come sinonimi nel linguaggio comune e nei media.

I dati sono rappresentazioni originarie, cioè non interpretate, di un fenomeno, evento, o fatto, effettuate attraverso numeri, categorie, simboli, testi, immagini o loro combinazioni, o di qualsiasi altra forma espressiva legate a un qualsiasi supporto. L’informazione deriva da un dato, o più verosimilmente da un insieme di dati, che sono stati sottoposti a un processo di elaborazione o interpretazione che li ha resi significativi per il destinatario. Un dato acquista valore di informazione solo se posto in relazione ad un contesto. La qualità dei dati e dell’informazione statistica è ormai un obiettivo primario per le agenzie nazionali di statistica cosa che non sempre avviene per qualunque produttore di dati e informazioni, in specie privati. Lo sforzo degli statistici nel campo delle indagini campionarie si è concentrato sulla definizione rigorosa del disegno d’indagine e conseguentemente della tecnica di selezione delle unità da osservare per avere una misura dell’attendibilità del dato e delle informazioni da esso derivate. Non altrettanto oggi si può dire per i dati amministrativi, per i cosiddetti big data derivabili da app e dagli open data per il cui utilizzo anche nel Covid-19 si insiste molto. Vale la pena ricordare che nelle analisi dei dati che derivano da queste ultime tipologie il tempo dedicato alla pulizia degli stessi (data cleaning) è dell’ordine del 75% del loro trattamento.

I dati del Covid-19 appartengono ai cosiddetti dati amministrativi la cui derivazione è demandata delle componenti più disparate dai medici di base a quelle ospedaliere, dalle istituzioni territoriali, alla protezione civile, all’Istituto superiore di Sanità di questo processo produttivo non fa parte l’ISTAT. Le problematiche che si sono manifestate in questi dati derivano dalla mancanza di una definizione precisa dei fenomeni di interesse (es. morti da o per coronavirus; i morti registrati dipendono da quelli positivi al tampone, non si ha traccia degli asintomatici, di qui la necessità di integrare i dati con stime campionarie realizzate dall’ISTAT; i record dei data base non contengono riferimenti alla data dell’accertamento ma a quella del risultato del tampone per cui manca il criterio della pertinenza; etc).

Le caratteristiche di qualità dei dati del Covid-19 dovrebbero riguardare oltre che l’aderenza a definizioni condivise anche le seguenti: completezza, accuratezza, tempestività, comprensibilità, oggettività. Simili dimensioni dovrebbero valere anche per la qualità delle informazioni cui va aggiunta il soddisfacimento dei requisiti degli utilizzatori e degli amministratori.

Chi garantisce della qualità dei dati e delle informazioni? Certamente, laddove possibile, ci si dovrebbe fidare dell’autorevolezza del produttore, in alternativa andrebbero istituiti appositi Enti di certificazione, similmente a quanto avviene in altri paesi, per ridurre il rischio che dati di cattiva qualità producano informazioni di cattiva qualità.

Professore, dal diluvio dei dati allo tsunami dei modelli e delle previsioni, diceva G.E.P. Box: “tutti i modelli sono sbagliati ma alcuni sono utili” come ci si può orientare nell’attuale prospettiva?

Un modello è una rappresentazione in scala ridotta della realtà in studio, solitamente rappresentata da una o più equazioni che esprimono relazioni causali tra variabili (indicatori) di diversa natura (es quantitative o qualitative, manifeste o latenti) o ruolo (esplicative o dipendenti, mediatrici o moderatrici). Le fasi più difficili della modellizzazione riguardano la scelta delle variabili e il disegno del modello ossia delle relazioni tra le stesse (non necessariamente lineari). Una volta stimato il modello si procede ad una sua validazione nel rappresentare adeguatamente i dati di base utilizzati nella stima ma anche su campioni cosiddetti di test. Solo dopo questa fase è possibile utilizzare il modello anche a fini previsionali e decisionali. E’ chiaro che le precedenti scelte dei dati, delle relazioni logiche tra queste, e delle procedure di stima, comportano un certo grado di soggettività che può essere solo attenuata dalla Conoscenza del dominio che dunque diviene fondamentale nella fase di modellazione come quella di interpretazione dei risultati e della implementazione di decisioni, e nondimeno nella valutazione di impatto mediante l’utilizzo degli stessi modelli a fini previsionali. Bisogna dire che la maggior parte dei modelli implementati in questa prima fase sono stati raramente modelli che tenessero conto delle caratteristiche epidemiologiche del covid-19 o di variabili di intervento con il compito di attenuarne gli effetti, limitandosi a interpolazione meccaniche dei dati ( modelli esponenziali, modelli logistici, modelli autoregressivi,..) che tenevano solo conto dell’andamento temporale dei diversi indicatori ( morti, positivi, ricoverati in ospedale o in isolamento a casa…). Esercizi questi realizzati molto spesso da persone senza conoscenze di natura epidemiologica e di frequente senza neanche adeguate competenze statistiche. L’errore più grave che è stato commesso è stato quello di assumere, tranne che nelle ultime settimane, un unico modello per le diverse regioni italiane, con evidenti distorsioni assunte nei primi tempi.

Più di recente alcuni esercizi di previsione sono stati condotti con approcci di natura algoritmico computazionali (machine learning /deep learning) che forniscono buone previsioni ma poca flessibilità per l’uso di variabili esterne o di intervento. Questi approcci, che rientrano nella cosiddetta Intelligenza Artificiale, non sono idonei alla interpretazione della realtà.

Il minor numero dei dati renderà più difficile la modellizzazione nella seconda fase.

La discussione che precede ha riguardato i processi di produzione dei dati e dell’informazione mentre rimane aperto il problema della loro comunicazione e fruizione “…esperti diversi, usando gli stessi dati pervengono a conclusioni diverse “(Evan Esar) .

Sicuramente la comunicazione di dati e informazioni come la capacità di interpretare anche semplici e tabelle da parte dei lettori costituiscono un grosso limite nel nostro Paese. Scuole del cosiddetto Data Journalism, oggi fruibili anche online, potrebbero di fatto essere di grande aiuto a ridurre questo gap che vedono Il Washington Post e il New York Times all’avanguardia. Un Osservatorio sulla Comunicazione di dati e informazioni statistiche, una sorta di Garante della Comunicazione quantitativa, potrebbe assumere questo compito riducendo il rischio di comunicazioni inadeguate, se non ingannevoli. Società scientifiche di Statistica o Scienza dei Dati e loro applicazioni, così come quelle di domini della conoscenza come Economia, Sociologia, Medicina, etc. potrebbero dedicarsi alla produzione di brevi video introduttivi su argomenti come la qualità dei dati, le indagini statistiche per campione e l’inferenza, realizzare e interpretare grafici e statistiche descrittive, analisi delle relazioni statistiche, il ruolo dei modelli e le previsioni-, la statistica e le decisioni, con lo scopo di accrescere l’alfabetizzazione statistica dei nostri cittadini che andrebbe promossa anche a livello degli studi medi. Un interessante esempio di alfabetizzazione nel campo del Covid-19 lo si trova sul sito https://www.nytimes.com/2020/03/05/health/coronavirus –deaths –rates.html in cui si spiega la costruzione e l’interpretazione di alcune informazioni statistiche di base come il tasso di mortalità per cd, ed il tasso di contagiosità e loro applicazioni nella pianificazione della salute pubblica.

anno V numero 1/2016

anno V numero 2/2016

anno V numero 3/2016

anno VI numero 1/2017

anno VI numero 2/2017

anno VI numero 3/2017 ED. SPECIALE

anno VII numero 1/2018

anno VII numero 2/2018

anno VII numero 3/2018

anno VIII numero 1/2019

anno VIII numero 2/2019

anno VIII numero 3/2019

anno IX numero 1/2020

anno IX EDIZIONE SPECIALE COVID-19

anno IX numero 3/2020

anno X numero 1/2021

anno X numero 2/2021

anno X numero 3/2021