Lessico 2.0: Classificare il sentiment di post di Facebook utilizzando recensioni di TripAdvisor.

Paola Zola, DMS Stat-Lab, Università degli Studi di Brescia

Costantino Ragno, Dipartimento di scienze e tecnologie, Università di Camerino

 

In questi giorni su qualsiasi mezzo di comunicazione la notizia che la fa da padrona è il Festival di Sanremo, che come tutti gli anni accende gli animi di appassionati di musica, telespettatori e cittadini italiani che si chiedono (e vedono) dove finiscono parte dei contributi. Ma cosa pensa veramente la gente del Festival della canzone italiana?

sanremo

Entrambi gli approcci hanno punti di forza e, ovviamente, di debolezza. In riferimento all’approccio unsupervised utilizzando Database di Lessico il sentiment assegnato ad una parola potrebbe cambiare da contesto a contesto (si pensi ad esempio al verbo “esplodere” che in genere denota un sentiment negativo ma se riferito a strumenti finanziari il sentiment è positivo). Mentre con riferimento agli approcci supervised il limite è dato dalla necessità di avere dati già etichettati e quindi o utilizzare database comuni oppure chiedere il supporto di esperti linguisti. L’idea è quella di utilizzare un approccio di “cross dataset”, incrociando più informazioni in maniera tale da poter classificare dati testuali non etichettati a priori utilizzando dataset che invece sono già etichettati.

L’assunzione di base è la seguente: un utente che utilizza Facebook generalmente utilizza anche altri tipi di portali web, ad esempio TripAdvisor ed Amazon ed è ragionevole ipotizzare che il suo modo di esprimersi sia simile su tutte le piattaforme. In altre parole, classificando le recensioni (etichettate) di Amazon e TripAdvisor si dovrebbe essere in grado di classificare anche i commenti (non etichettati) di Facebook. Perché proprio TripAdvisor ed Amazon? La risposta è molto semplice: chi utilizza questi portali sa bene che è l’utente stesso che, oltre a scrivere una recensione testuale, associa un rating espresso in una scala da 1 (pessimo) a 5(ottimo). Quindi, le recensioni sono etichettate.

L’indagine si struttura in due fasi. In una prima fase i dati provenienti da TripAdvisor (circa 35,000 recensioni) vengono gestiti attraverso tecniche di Natural Language Processing (NLP) in modo da eliminare l’informazione non utile e, per ridurre l’onere computazionale, le parole vengono ricondotte alla loro radice (ad esempio bello, bella, belle, belli diventano tutti “bell”). Successivamente viene costruita la matrice di “embedding” in cui ogni commento è rappresentato come un vettore numerico e questa matrice viene passata come input nelle reti neurali. Le reti neurali utilizzate in questo lavoro sono la Multilayer Perceptron (MP) e Convolutional Neural Network (CNN) e per l’ottimizzazione degli iperparametri sono state effettuate cross validation con iperparametri selezionati da griglia (Grid search). La seconda fase di analisi prende la struttura della rete (sia per MP che per CNN) che assicura un maggior livello di accuratezza nella classificazione ed implementa l’algoritmo sui dati di Facebook (oltre 1,000 post).

I risultati preliminari sono incoraggianti e mostrano che nell’84% dei casi i post di Facebook vengono classificati correttamente utilizzando una CNN. Ulteriori studi sono in corso sia in riferimento all’applicazione di altri algoritmi di Machine Learning sia utilizzando dati in lingue diverse dall’italiano. Se le ulteriori analisi dovessero confermare i risultati, l’approccio descritto potrebbe essere molto utile per la classificazione del sentiment di qualsiasi dato testuale non etichettato proveniente dal Web, superando i limiti dei classici approcci supervised e unsupervised.

Facebooktwitterlinkedinmail