Data Science per dati di rete

Daniele Durante, Susanna Zaccarin, Bruno Scarpa
Dipartimento di Scienze delle Decisioni, Università Bocconi; Dipartimento di Scienze Economiche,
Aziendali, Matematiche e Statistiche, Università degli Studi di Trieste; Dipartimento di Scienze
Statistiche, Università degli Studi di Padova.
Viviamo in un mondo sempre più interconnesso. Un mondo in cui le informazioni sulle strutture di
connessione tra un insieme di entità (dette nodi) sono facilmente misurabili in molti campi di studio,
tra cui le scienze sociali, le neuroscienze, il marketing ed altre discipline.
Sebbene i primi modelli probabilistici per dati di rete risalgano a circa sessant’anni fa, questo
campo di ricerca è tuttora oggetto di vivace ed intenso interesse. La principale motivazione per la
recente crescita di metodologie statistiche nella modellazione di reti è legata alla sempre più
massiccia accessibilità a dati di questo tipo. Le reti sociali online, i recenti sviluppi tecnologici nel
monitoraggio di reti cerebrali e la disponibilità di algoritmi sofisticati per catalogare informazioni
dai mezzi di comunicazione, forniscono dati di rete caratterizzati da una progressiva complessità e
contribuiscono a nuovi interrogativi metodologici ed applicati.
Un ottimo banco di prova per la Data Science, caratterizzato da new challenges, e new generations.
I primi esempi di reti sociali basati su presenza o assenza di una specifica relazione tra un ristretto
numero di nodi, si sono infatti progressivamente trasformati in dati sempre più complessi. Se
pensiamo, ad esempio, alla rete di Facebook, le connessioni tra i diversi utenti possono essere oggi
misurate in maniera dinamica ed in riferimento a diverse tipologie di relazione sociale (amicizia,
tags, commenti, chat, condivisione di notizie, etc…). A questa crescente multidimensionalità, si
unisce poi la vastità del numero di utenti per i quali tali informazioni possono essere raccolte. Un
dato, quindi, non solo “big”, ma anche “complex”, che richiede nuovi modelli statistici d’analisi,
combinati a metodi computazionali efficienti.
La sessione Data Science for Network Data del convegno SIS2017, ha rappresentato un ottimo
esempio della vivacità e dell’entusiasmo con cui il mondo della Data Science ha accolto questa
nuova sfida su diverse linee di ricerca. Motivato da reti sociali e di collaborazioni parlamentari,
Mirko Signorelli dell’Università di Leiden ha affrontato, nel suo contributo ”Variable selection for
(realistic) stochastic blockmodels” , il problema di individuare strutture di comunità all’interno della
rete tramite nuove tecniche di variable selection basate su metodi di penalizzazione. In “Marginal
modeling of multilateral relational events” Antonietta Mira dell’Università degli Studi dell’Insubria,
ha invece focalizzato la propria attenzione su reti dinamiche di contatti tramite e-mail, proponendo
un nuovo approccio per la modellazione marginale e bivariata degli eventi sottostanti la rete di
relazioni tra coppie o gruppi di nodi. Maria Prosperina Vitale dell’Università di Salerno e Johan
Koskinen dell’Università di Manchester, hanno invece concentrato i loro sforzi su recenti esempi di
reti complesse, caratterizzate da diverse tipologie di relazioni misurate sullo stesso insieme di nodi,
e da strutture multi-strato in cui sottoinsiemi di nodi distinti (ad esempio organizzazioni e persone)
interagiscono secondo diversi meccanismi. Nel contributo “On the use of DISTATIS to handle
multiplex networks” Maria Prosperina Vitale ha studiato la prima tipologia di reti tramite nuove
estensioni di metodi di scaling multidimensionale, mentre in “Statistical analysis for partially
observed multilayered networks” Johan Koskinen ha proposto una generalizzazione degli
exponential random graphs per poter modellare reti multi-strato.
La sessione ha dunque offerto una stimolante big picture del dinamismo e della variabilità
nell’attuale ricerca statistica sui dati di rete, caratterizzata da stimolanti collaborazioni e da un
crescente dialogo con le altre discipline. D’altronde, citando il recente contributo Scientific
Networks and Success in Science di Frank Schweitzer, “There is not only an emerging new science
about data, there is also new data about science” e si tratta, spesso, di dati di rete.

Facebooktwitterlinkedinmail