Statistica linguaggio sovra disciplinare per comprendere e dare valore ai dati

Convegno Data to Change, ideato e organizzato dal Dipartimento Politiche Europee e dall'Associazione InnovaFiducia presso la Camera dei Deputati
Convegno Data to Change, ideato e organizzato dal Dipartimento Politiche Europee e dall'Associazione InnovaFiducia presso la Camera dei Deputati

Ho accettato con piacere di intervenire nella Sessione “Innovazione guidata dai dati” del Convegno Data to Change portando il punto di vista del Presidente della Società Italiana di Statistica (SIS). La nostra comunità scientifica lavora dal 1939 alla promozione della cultura scientifica e la diffusione dei risultati della ricerca statistica nella comunità scientifica ma anche tra le istituzioni, le imprese e i cittadini. L’obiettivo è ambizioso ma siamo convinti che la Statistica sia sempre stata e oggi più che mai sia il linguaggio sovra disciplinare per comprendere e dare valore ai dati. Ma andiamo per ordine.

 

Data to Change, Dati per cambiare, per innovare. L’innovazione è un’attività di pensiero che ha molte qualificazioni a seconda del campo di riferimento e/o dei settori di applicazione: si parla di innovazione di prodotto, di processo, di servizi, di innovazione per le imprese; ma l’innovazione può riguardare anche la implementazione di una politica di intervento da parte dei governi e anche i fondamenti di un movimento filosofico o spirituale, di nuovo modo di vedere il mondo.

Forse senza entrare nella definizione si può dire che l’innovazione ha poi una dimensione applicativa anzi forse è la dimensione applicativa di una scoperta o di una nuova idea, che comunque dovrebbe apportare un “progresso sociale” per apportare reali benefici.
Mi sembra che si possa dire che il motore dell’innovazione è il desiderio di servire l’uomo per migliorare le sue condizioni, la qualità della sua vita.

Comunque, l’innovazione tecnologica basa il suo fondamento sul progresso scientifico. D’altra parte, l’evoluzione tecnologica e l’evoluzione culturale sono intimamente connesse e i cittadini o comunque i fruitori del prodotto o servizio ecc. innovato se non sono sufficientemente evoluti non sono in grado di comprendere l’innovazione e di apprezzarla, peggio ancora potrebbero accettarla anche contro il loro interesse.

 

Non saprei dire se e quanto l’innovazione scaturisca guidata dai dati e dalle informazioni statistiche, certamente nel processo ideativo della novità la fase di documentazione e quindi di raccolta e studio dei dati è importante ma non credo che guidi l’innovazione. Mentre la decisione della sua applicazione e tutte le fasi del processo di applicazione dell’innovazione richiedono l’ausilio di dati statistici e della loro analisi (e quindi del ragionamento statistico e dell’analisi della qualità delle informazioni), come vale per qualsiasi processo decisionale. E queste informazioni servono non solo all’imprenditore e/o al policy maker, ma anche al comune cittadino che deve essere in grado di giudicare l’innovazione e/o i risultati di una nuova politica di intervento. Tra l’altro i dati servono anche per giudicare l’efficacia dell’innovazione. Il ruolo della Statistica nel processo decisionale è riconosciuto in molti ambiti: dalla politica, al governo delle imprese e anche direi nella vita di molte famiglie che applicano – o dovrebbero applicare – il concetto di media e di variabilità tutte le volte che analizzano il budget a disposizione per gli acquisti di prodotti di consumo o beni durevoli o investono nell’educazione di un figlio in vista della sua futura occupazione e dei suoi sviluppi professionali.

 

Data to change significa anche dati da cambiare. Dati nuovi, cioè prodotti con metodi innovativi, i cosiddetti Big data. Metodi innovativi che ci consegnano giacimenti informativi, spesso costituiti da tanti dati che seguono i nostri comportamenti telefonici, di acquisto, di movimento e di svago in tempo reale tracciando profili dei fruitori dei servizi che sono riepiloghi basati su modelli di sintesi, talvolta basati sul machine learning,  lanciati da data scientists.

Fermiamoci a considerare cosa sono i dati. I dati sembrano di per sé oggettivi ma di fatto “data” è il plurale di datum, che significa appunto fornito da un Agente (il produttore) in un determinato tempo e spazio e con un mezzo (medium, media appunto). Questo è sempre stato e sempre sarà. In poche parole, ogni dato è una rappresentazione della realtà, anche quando è dato numerico, contestuale all’evento, contabilizzazione del presente e immediatamente disponibile, come nel caso dei Big data. Il valore del dato come strumento di valida conoscenza è legato indissolubilmente alle modalità della rappresentazione nei suoi aspetti di raccolta (ideazione) dei dati e loro analisi.

La rappresentazione della realtà, specialmente quando come oggi è legata a doppio filo alla tecnologia usata nella produzione del dato deve essere scientificamente condotta e le modalità di raccolta e analisi svelate. I metadati, cioè i dati sui dati, sono essenziali per comprendere e – se è il caso – condividere le ontologie usate nella produzione dei dati.

Abbiamo appreso dall’intervento del Presidente dell’Istat come la definizione delle ontologie (definizioni per la gestione e rappresentazione dei dati e dei meta dati) siano cruciali nella produzione dei dati statistici ufficiali.

Attenzione però, non è automatico che l’evoluzione tecnologica nella produzione dei dati sia accompagnata da una evoluzione culturale adeguata, che metta in grado i non specialisti di capire e trarre vantaggio dall’innovazione. Proprio nel caso dei nuovi dati il controllo sociale dei cittadini sull’innovazione non è né automatico, né garantito.

L’evoluzione culturale necessaria per passare dalla comprensione dei conteggi e delle elaborazioni in tempo reale, alla valutazione critica della profilazione dei comportamenti di consumo, delle abitudini di lettura e anche delle attitudini in tempo reale è necessariamente di tipo statistico. La grammatica e direi il linguaggio della produzione e dell’analisi dei dati numerici (e non) è la Statistica. Si parla sempre più spesso di Scienza dei dati, ecco senza l’impiego adeguato della Statistica non è possibile svilupparla. Non è possibile chiamarla Scienza.

Certo c’è molto da fare sia per l’educazione dei nativi digitali che navigano facilmente nel mondo dei dati ma non sanno gestirli né interpretarli criticamente, sia per l’adeguamento delle capacità di lettura degli adulti, dei cittadini. La SIS con Istat ha interlocuzioni con il MIUR su questo.
Nel campo dell’alfabetizzazione degli adulti, già da ora, è necessario che ci sia consapevolezza sui metodi di generazione ed analisi dei dati. Non credo che sia opportuno esternalizzare alla cieca le nostre capacità di scelta consegnandole per comodità ad elaborazioni fatte da qualcun’altro, sia per l’intrattenimento televisivo (vedi Netflix) sia per la stipula di un contratto d’assicurazione: non è questo il modo di trarre il maggior vantaggio dai benefici del progresso.

Sì, perché la profilazione e la sintesi dei dati è operata con modelli statistici e di machine learning che si basano su ipotesi di specificazione che devono essere svelate. Inoltre, hanno una componente di errore che deve essere trattata fuori dalla logica deterministica ed inserita nel suo più appropriato ambito probabilistico ed inferenziale.

I concetti di media, correlazione, eterogeneità, variabilità campionaria, selettività, effetto di confondimento, propagazione dell’errore, errore sistematico, errore casuale, che sono “modernariato” per gli statistici che studiano da sempre i fenomeni collettivi, sono spesso trascurati nella contemporaneità.
Questo non è più possibile: oggi con tanti, tutti, troppi dati a disposizione essi sono condizione essenziale per procedere bene in qualunque disciplina, sia essa delle scienze “dure” o in quelle “umanistiche”. La natura pervasiva dei dati a disposizione in ogni ambito del sapere ci fanno dire che i concetti sopra richiamati hanno una natura “pluridisciplinare”, anzi forse “sovra disciplinare” cioè sono utili per una grande quantità di persone che vogliono trasmettere il sapere e comunicarlo.

 

Un’ulteriore precisazione è doverosa: le Società scientifiche sono le hub naturali per l’ideazione di nuovi metodi statistici adatti al trattamento di vasti giacimenti di dati. Non ci si può “innamorare di pratica senza scienza”. Gli addetti ai lavori sanno bene che il passaggio dal dato all’informazione è spesso effettuato con l’applicazione di modelli le cui ipotesi di specificazione devono essere dichiarate. I dati sono tanti, spesso si sente dire tutti dimenticando l’inevitabile selettività, a volte auto selettività dei comportamenti (pensiamo all’idea di costruire tassi di inflazione usando solo gli scambi ebay!) che generano le famose “briciole” informatiche dei Pollicini digitali. Vorrei dire che a volte i dati sono addirittura troppi.
Sia i ricercatori sia i cittadini comuni hanno necessità di conoscere meglio la Statistica per sintetizzarli senza perderne o snaturarne il significato. Si sa, studiare il linguaggio dei dati a volte sembra noioso, ma adesso si tratta di un linguaggio trasversale.

 

La Società Italiana di Statistica ha sempre lavorato per la diffusione delle conoscenze di Statistica. Ogni Società Scientifica di Statistica, in Europa e anche negli Stati Uniti di America, oggi lavora su questo: è più che mai è importante collaborare con i media per evitare che si formi una sorta di “aristocrazia” nella produzione dei dati che fornisca rappresentazioni precostituite ed acritiche della realtà da parte di Agenti che possono anche non seguire modalità scientifiche per la produzione ed analisi dei dati statistici.
L’epoca della post verità in cui i fatti non esistono e della morte della Statistica non è proprio questa, anzi.

La SIS è disponibile a fare un percorso insieme alla Scuola (già iniziato con il MIUR) e ai Media (da ideare, programmare e attuare) per i policy makers e per i cittadini per migliorare i processi decisionali, per sviluppare la democrazia, per renderli più consapevoli e renderli meno influenzati dalle “bolle informative” del momento.

 

Monica Pratesi, 15 gennaio 2018

 

sis  

Società Italiana di Statistica

P.zza Manfredo Fanti 30 00185 Roma tel. 06.6869845 fax. 06 68806742 sito web: http://www.sis-statistica.it

 

 

 

 

 

 

Facebooktwitterlinkedinmail