Data mining e terremoti dietro casa

Creato il 23 giugno 2012 da Hnikarr

Del terremoto che ha colpito un mese fa l’Emilia-Romagna, e che tuttora prosegue, si è già parlato molto in altri lidi. Pur nono abitando in una delle due province che si alternavano l’epicentro, mi sono trovato abbastanza vicino da avere il dubbio privilegio di seguirlo dal vivo senza bisogno di alcun mezzo di comunicazione: bastavano le scosse e i tremiti percepiti. Adesso che appare in fase di progressivo rilassamento, posso concedermi una rapida analisi di questo mese; essendo però io un nerd, la mia analisi passa attraverso un procedimento un po’ particolare, ossia il data mining. Data mining è il processo di raccolta, sistemazione e analisi di quantità più o meno grandi di dati, per ricavarne informazioni. Da una grande massa di dati relativa a un argomento è infatti possibile ricavare regole generali, che collegano tra loro questi dati; è possibile individuare tendenze, andamenti e, sulla base di queste, formulare previsioni sul futuro sviluppo di una sequenza di dati. Per esempio, disponendo di un quantitativo sufficientemente grande di dati sui consumi degli italiani, potremmo scoprire dove preferiscano andare per acquistare un determinato prodotto, in quale periodo si acquista maggiormente un certo prodotto (incrociato col calendario dei saldi e delle offerte speciali, può essere una informazione molto utile per i commercianti), come si acquista e quali combinazioni di prodotti sono più frequenti, eccetera. In pratica, il data mining consiste nel risolvere determinati problemi analizzando i dati già in nostro possesso: quando eseguito con l’utilizzo di computer, è una branca dell’intelligenza artificiale. Non la più affascinante, dal mio punto di vista: preferisco le reti semantiche e i sistemi esperti, che contengono più logica e meno matematica, ma è questione di gusti. Il data mining è connesso alle tecniche di apprendimento per le macchine e, come tale, un campo di notevole importanza, specie in un periodo come il nostro, in cui oceani di dati personali inondano la Rete e il problema sta nel modo migliore per organizzarli, così da trarne informazioni utili (di qualsiasi tipo). Weka è un valido strumento per il data mining. È un programma sviluppato dall’università di Waikato, in Nuova Zelanda, che ci mette a disposizione un gran numero di algoritmi di apprendimento, per organizzare, sistemare e processare i dati con la tecnica che preferiamo: possiamo visualizzare i dati utilizzando vari tipi di grafici e cercare di trarne ogni possibile modello e regola attraverso i vari algoritmi disponibili. Soprattutto, è un programma realizzato in Java e rilasciato con licenza GNU GPL: tradotto dal nerdese, significa che funziona più o meno su qualsiasi sistema operativo, purché sia installato il Java, è gratuito e lo si può usare e personalizzare liberamente. Dispone anche di una comoda interfaccia grafica, anche se non è di comprensione molto immediata.
Il terremoto, il data mining e Weka si incontrano qui: ho raccolto i dati forniti dallo INGV sulle varie scosse di terremoto che si sono susseguite nell’ultimo mese (dal 19 maggio fino a ieri sera, 22 giugno), li ho sistemati in un formato adatto a essere dato in pasto a Weka e poi ne ho osservato i risultati, giusto per verificare cosa potesse dire una semplice analisi dei dati. Una analisi statistica, va precisato, e che non ha alcun valore predittivo: il data mining può essere utilizzato per realizzare modelli predittivi e, in un certo senso, è utilizzato così nel campo della meteorologia. Si raccoglie una quantità enorme di dati sullo stato passato e attuale dell’atmosfera, li si processa per ricavarne andamenti regolari, regole generali dei cambiamenti atmosferici e, sulla base di queste regole, si propongono modelli predittivi sui loro sviluppi futuri. Detto in modo molto generale, ovvio. Per i terremoti, invece, tutto ciò non è attualmente possibile, perché non disponiamo dello stesso quantitativo di dati, né possediamo una conoscenza altrettanto precisa sulle cause dei fenomeni: lo studio dell’atmosfera è molto più semplice ed economico dello studio dei movimenti nelle placche terrestri. Si possono stimare le probabilità di un terremoto in una determinata zona nell’arco di qualche decennio, ma non è possibile indicare mese e giorno in cui il terremoto si verificherà. La mia “analisi” con Weka, insomma, si è limitata a osservare il modo in cui si è sviluppato il terremoto nel corso del mese, senza guardare a un possibile futuro. La raccolta dei dati non è stata difficile. Sul sito dello INGV non sono stato capace di trovare un archivio di dati in un formato adatto alla conversione (no, i PDF non sono adatti: sono ottimi per la stampa o la lettura, ma pessimi per qualsiasi tipo di conversione), così ho dovuto fare ricorso al database di ISIDe, indicare l’intervallo di tempo e la zona di cui volevo raccogliere i dati e poi scaricarli in formato CSV. Dal formato CSV al formato ARFF, cioè il formato adatto a Weka, il passo è breve e il risultato della conversione lo potete scaricare qui, nel caso foste interessati. (© ISIDe Working Group (INGV, 2010), Italian Seismological Instrumental and parametric database: http://iside.rm.ingv.it)
Così è come si presenta il file, dopo averlo dato in pasto a Weka:
Gli attributi sono i tipi di dati presi in esame: in questo caso data, latitudine, longitudine, profondità e magnitudo, per ogni scossa registrata. Le istanze sono i set di attributi che abbiamo a disposizione: in questo caso corrisponde al numero di scosse registrate. Il tempo è espresso in tempo assoluto, ossia in millisecondi a partire dal 1 gennaio 1970, che funge da “anno zero”: questa scelta può sembrare priva di senso, ma in realtà ha un suo senso. Eventualmente, il sistema utilizzato per esprimere la data si può cambiare senza problemi anche all’interno di Weka, senza che questo modifichi il file originale.
Dai grafici riportati qui sopra, possiamo farci una idea sull'andamento statistico del terremoto. Sul piano del tempo, il numero di scosse è in chiara diminuzione, dopo aver raggiunto un picco notevole verso la fine di maggio. La latitudine dell’epicentro non è cambiata di molto e le varie scosse (1998 scosse registrate, fino a ieri sera) si sono concentrate tra 44.847 e 44.913 di latitudine nord, mentre la longitudine appare più distribuita, con la maggioranza delle scosse comprese tra i 10.871 e gli 11.397 di longitudine est. Un quarto delle scosse ha avuto luogo a una profondità tra i 9 e i 10 chilometri, mentre la magnitudo media oscilla attorno al 2.5 ed è soprattutto questo dato ad avere un valore statistico molto “relativo”: le innumerevoli scosse di secondo grado contano poco, quando ce ne sono sette sopra i cinque gradi, che hanno fatto il grosso del lavoro di distruzione. Altra cosa che è possibile fare è osservare il rapporto tra due attributi: Nel grafico soprastante vediamo un confronto tra tempo e magnitudo: sull'asse delle X (l’asse orizzontale) abbiamo lo scorrere del tempo, mentre sull'asse delle Y (l’asse verticale) le croci rappresentano la magnitudo delle varie scosse. Colpo secco iniziale il 20 maggio, poi un periodo di relativa calma e quindi un muraglia di scosse verso la fine di maggio, prima di tornare a calare. Se guardiamo l’andamento della latitudine nel corso del tempo (qui sotto), osserviamo di nuovo quanto già visto coi grafici precedenti: le croci tendono a piazzarsi al centro, lungo lo stesso asse, e solo negli ultimi giorni si distribuiscono in modo più ampio. Sul piano della longitudine, infine, vediamo che in un primo momento il terremoto era concentrato a est, più vicino a Ferrara che a Modena, mentre a fine maggio il centro si è spostato di parecchio verso Modena, per tornare poi a una distribuzione più uniforme.
È possibile poi applicare svariati filtri e algoritmi di apprendimento, per cercare le regole e le tendenze nascoste in questi dati, ma è un lavoro di dubbia utilità: questi algoritmi di solito servono per apprendere qualcosa da un set di dati che contiene informazioni da darci. Questi dati, invece, hanno semmai un valore statistico, ma non servono a stabilire regole o formulare modelli di previsione: sarebbe come cercare di determinare la vita e la storia della famiglia che abita al piano di sopra, basandoci sul rumore dei passi che sentiamo attraverso il soffitto della nostra stanza.

Potrebbero interessarti anche :

Possono interessarti anche questi articoli :