Modelli univariati e multivariati per serie storiche di conteggi con applicazione a COVID-19

Francesco Bartolucci – Università degli Studi di Perugia
Fulvia Pennoni – Università degli Studi di Milano-Bicocca
Antonietta Mira – Università della Svizzera Italiana e Università degli Studi dell’Insubria

Mediante un modello bayesiano Multinomiale autoregressivo, che considera simultaneamente le diverse tipologie di pazienti ed include anche i deceduti e i guariti come categorie di osservazione, è possibile studiare, giorno per giorno, le transizioni tra i diversi stati del modello e di prevedere in modo attendibile, almeno nel breve termine, il fabbisogno di posti letto in ospedale ed in terapia intensiva.

Sin dai primi giorni della diffusione dell’epidemia COVID-19 in Italia, stiamo sviluppando e confrontando diversi modelli per l’analisi di serie storiche di conteggi. In particolare, ci siamo focalizzati su modelli in grado di fornire previsioni stabili in tempo reale, pur disponendo di esigue osservazioni che vengono aggiornate giorno per giorno e che possono presentare problemi dovuti a questioni legate alla rilevazione dei dati. In particolare, è noto che in alcune situazioni e a causa dell’emergenza, i dati riferiti a più giorni di rilevazione sono stati accumulati in uno stesso giorno di pubblicazione creando delle irregolarità per le serie storiche osservate.

Inizialmente abbiamo utilizzato un modello di Poisson ed un modello basato sulla distribuzione Binomiale Negativa per analizzare le serie storiche univariate dei pazienti malati o in una specifica condizione in Italia o in alcune regioni, in particolare in Lombardia. Tali modelli sono stati formulati includendo un trend temporale attraverso dei polinomi e delle spline e anche includendo delle componenti autoregressive del primo e del secondo ordine. Inoltre, per tenere conto dell’effetto dei provvedimenti emanati dal Governo e dalle regioni, sono state introdotte delle covariate di intervento o dei nodi nel caso di utilizzo di spline per il trend temporale.

In seguito ci siamo resi conto che l’interesse della collettività, così come dei decisori pubblici, è quello di conoscere quante persone si ammalano e, nello stesso tempo, quante persone hanno bisogno delle diverse tipologie di assistenza, con particolare riferimento alla terapia intensiva.
Abbiamo quindi pensato ad un approccio multivariato basato su un modello Multinomiale autoregressivo che considera simultaneamente le diverse tipologie di pazienti ed include anche i deceduti e i guariti come categorie di osservazione. Questo modello permette di studiare le transizioni tra diverse categorie esclusive, giorno per giorno, e di prevedere in modo attendibile, almeno nel breve termine, il fabbisogno di posti letto in ospedale ed in terapia intensiva.

È interessante notare che il modello assume una struttura Markoviana avente degli stati assorbenti, come ovviamente quello dei decessi, pur essendo stimato sulla base dei dati a livello aggregato, ovvero delle distribuzioni marginali delle tabelle di contingenza relative al numero di pazienti che transitano da una categoria all’altra in giorni consecutivi. Si presta inoltre ad essere interpretato come modello epidemiologico in linea con i più comuni modelli SEIR (Succeptible – Exposed – Infected – Recovered) ed è in grado di fornire una stima di indicatori di diffusione dell’infezione collegati con il numero di riproduzione di base (R0, numero medio di persone contagiate da una persona infetta).

I parametri vengono stimati utilizzando l’approccio Bayesiano attraverso un algoritmo di tipo Markov chain Monte Carlo che permette di ricavare, in forma simulata, la distribuzione a posteriori di questi parametri. L’algoritmo che abbiamo implementato è basato su due passi che vengono iterati ripetutamente e che contemplano l’utilizzo di regole di accettazione di tipo Metropolis-Hastings.
L’inferenza Bayesiana è particolarmente vantaggiosa se si intende utilizzare anche le informazioni a priori, quando disponibili, derivanti da altri paesi dove l’epidemia si è sviluppata in precedenza. Nel caso di COVID-19, in particolare, è vantaggioso utilizzare i dati della Cina da dove è partita la diffusione del virus. È inoltre possibile fornire intervalli di credibilità per i parametri ed effettuare confronti tra modelli con e senza effetti di intervento per valutare l’efficacia degli stessi. Gli esercizi di cross-validation che abbiamo effettuato in questi giorni hanno permesso di evidenziare interessanti risultati in termini di affidabilità previsionale nel breve termine.

Auspichiamo che la proposta del modello Multinomiale autoregressivo possa essere utilizzata come strumento di ausilio per coloro che si trovano ad affrontare questa emergenza ed intendiamo continuare a perfezionare la proposta per renderla fruibile a tutta la comunità scientifica, anche mettendo a disposizione un apposito pacchetto di facile utilizzo nell’ambiente R.

 

Facebooktwitterlinkedinmail