Cosa sono i Big Data

Big Data Diversi anni fa, Tim O’Reilly sosteneva che con lo sviluppo del Web 2.0 i dati sarebbero diventati il nuovo Intel, il motore cioè dell’innovazione tecnologica e dello sviluppo.

Recentemente, quello dei Big Data sembra essere diventato il settore del momento, uno di quelli che periodicamente vengono definiti “il settore del futuro”, in grado di creare nuove professioni e nuovi posti di lavoro (vedi ad esempio i report di Gartner ).

Anche se sappiamo bene che queste previsioni lasciano sempre un po’ il tempo che trovano, non c’è dubbio che viviamo in società in cui si producono quantità esorbitanti di dati, e che ciò stia sollevando numerose questioni politiche, etiche e persino epistemologiche (vedi un recente intervento di F. Sylos-Labini ).

Cerchiamo dunque di capire di che si tratta, e di vedere l’arrosto dietro le tante cortine di fumo (o di “fuffa”).

***

Big Data è l’espressione che si usa quando le informazioni che si devono / vogliono gestire sono tante — troppe, ovvero “quando la dimensione stessa dei dati diventa parte del problema” (O’Reilly Radar Team 2011). In un certo modo, l’espressione deriva quindi dai limiti di storage e di elaborazione determinati dalla tecnologia, ed è dunque relativa alle evoluzioni di quest’ultima.

Ciò che rende i dati “Big” non è però solo la quantità: non si tratta cioè di singoli database — come un foglio Excel o un database Access — con tante righe e tante colonne, di dimensioni talmente grandi da non poter essere gestiti dagli applicativi in uso, né conservati in un disco fisso o in un server. Un database di questo genere, pur creando problemi di tipo tecnico, presuppone infatti pur sempre informazioni organizzate in maniera omogenea (in base alle colonne, ovvero le variabili), e non pone particolari problemi di approccio. Non richiede in sostanza lo sviluppo di una data science o di nuove professionalità.

mele e pere I Big Data provengono invece di solito da fonti diverse, e comunque sono il risultato di varie procedure, come ad esempio quelle legate alla normale operatività di aziende, banche, pubbliche amministrazioni, social networks, compagnie telefoniche, apps e così via. Queste procedure lasciano tracce elettroniche, ed è naturale che le aziende siano interessate a sfruttare al massimo i dati così prodotti.

Altra caratteristica fondamentale di queste tracce, è che esse si accumulano in tempo reale, modificando rapidamente la base dati di riferimento.

Di fatto quindi, l’analista deve lavorare con: tante informazioni; che cambiano velocemente; e di natura diversa (la tripla V, Volume, Velocity & Variety, introdotta da Laney 2001). Si tratta di lavorare mettendo assieme “mele e pere”, database diversi, non sempre — o quasi mai — esplicitamente connessi (attraverso un campo identificativo, ad esempio), dati numerici e testuali, strutturati e non strutturati.

Il principale problema che si pone all’analista è dunque quello di creare un ordine da questo caos, nell’impossibilità di intervenire direttamente nella produzione delle informazioni.

Naturalmente, l’azienda può nel corso del tempo intervenire sulla sua organizzazione e sul funzionamento delle piattaforme che usa, ma questo ha inevitabilmente dei limiti (ad esempio, la privacy degli utenti o dei clienti, l’organizzazione del lavoro, il tempo ecc.).

Molti considerano questa situazione deplorevolmente caratteristica di questo ambito. Ma in fondo, si tratta di una situazione non così diversa da quella dell’astrofisico teorico che si confonti con i dati prodotti dai satelliti. Dal suo punto di vista, i dati possono essere come non essere quelli che meglio rispondono ai suoi interessi teorici: ma sono quelli che ha, e non verrà lanciato un satellite nuovo, né si resetteranno gli strumenti di rilevazione, per ogni nuova esigenza di ricerca. Almeno, non sul momento, e non avrebbe senso aspettare i dati “giusti” per cominciare lavorare.

Questo non significa che il ricercatore non valuterà la qualità dei dati, ma che la valuterà secondo criteri decisamente più pragmatici. Da una parte, esplorerà i dati in maniera descrittiva (se non altro per avere una idea di quali siano); dall’altra li “interrogherà”, formulando ipotesi, per rispondere alle domande del committente. Ma i dati sono quelli, e solo quelli.

R logo Il data scientist deve possedere competenze diverse rispetto a quelle normalmente richieste agli statistici, se non altro molto più trasversali. Dovrà conoscere diversi linguaggi di programmazione, e soprattutto dovrà acquisire una mentalità più pragmatica, per lavorare con quello che c’è, e cercare in giro per il web soluzioni praticabili per ogni singolo nuovo problema analitico che incontrerà.

Parallelamente, si assiste al rapido sviluppo di tecniche e software per il data mining e il text mining (automatici, semi-automatici ma anche “umani”). Molti di questi strumenti sono open source e dunque liberi (vedi anche il post: “Data Mining con R“). Di contro, molti di questi dati non sono pubblicamente accessibili, per tutelare la privacy e/o gli interessi delle aziende.

***

Non sorprende constatare che l’incrociarsi di tutti questi temi sollevi molto chiacchiericcio, ma anche tanti interrogativi più che seri, di carattere metodologico e non solo.

Quale ruolo hanno i modelli interpretativi? Davvero i Big Data segneranno la fine della teoria ? Quando i dati sono accessibili praticamente solo alle aziende che li producono e li diffondono, quanto possono essere considerate affidabili le informazioni diffuse? I Big Data ci stanno portando verso una società post–fattuale — in cui ciascuno sceglie e usa i dati che preferisce, magari quelli che danno ragione alle sue tesi, o che meglio sono in grado di promuovere la sua attività (Manjoo 2008)?

Le grandi aziende per il momento nicchiano, ma credo che di questi temi — che hanno una sempre maggiore rilevanza pubblica — sarà necessario discutere ancora a lungo.

Riferimenti

Anderson, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired. Cosenza, V. (2012). La società dei dati. 40k Unofficial. Gartner. (s.d.). Big Data: Investing in Information and Analytics | Gartner Inc. gartner. Laney, D. (2001). 3DData Management: Controlling Data Volume, Velocity, and Variety. Gartner. Manjoo, F. (2008). True enough: learning to live in a post-fact society. Hoboken, N.J.: Wiley. O’Reilly Radar Team. (2011). Big Data Now: Current Perspectives from O’Reilly Radar. O’Reilly Media, Inc. O’Reilly, T. (2005). What is Web 2.0: Design patterns and business models for the next generation of software. oreilly.com. Sylos Labini, F. (2013, luglio 13). La scienza nell’era dei ‘big data’. Il Fatto Quotidiano.

Immagini tratte da: colocationamerica.com; publicdomainpictures.net.