di Redazione LSDI. Si è rivelata una impresa piuttosto complicata ma il progetto della Biblioteca del Congresso degli Stati Uniti di archiviare tutti i tweet che vengono prodotti sul pianeta continua ad andare avanti.
Lo ha assicurato Jennifer Gavin, portavoce della Biblioteca, smentendo la notizia – diffusa da un sito canadese – secondo cui quel progetto sarebbe stato abbandonato.
Come racconta Andrew Phelps su NiemanLab, poco più di due anni fa la Biblioteca del Congresso aveva annunciato che avrebbe conservato ogni tweet pubblicato, per le generazioni future, a partire dal marzo 2006, data di apparizione di Twitter.
Si tratta di quantità notevoli di dati – commenta Phelps. Twitter processava più di 50 milioni di tweet al giorno, raggiungendo complessivamente quantità di messaggi dell’ ordine dei miliardi. Cifra salita ora a 400 milioni, secondo il Ceo della società, Dick Costolo. (Il primo commento sul progetto comparso sulla pagina delle FAQ, riassumeva il grosso delle reazioni della Rete: ‘’E’ una grande notizia per le generazioni future sapere che gusto di burrito ho mangiato a ora di pranzo.”)
Da un po’ di tempo del progetto non si era saputo più niente e qualche giorno fa su Canada.com era apparsa la notizia del presunto abbandono.
’Falso – ha spiegato Jennifer Gavin -; il progetto è in piena attuazione. L’ unica cosa è che i buoni bibliotecari si muvono più lentamente di Twitter. E comunque non possiamo ancora precisare una data in cui verrà dato un nuovo annuncio ufficiale sull’ avanzamento dell’ iniziativa’’.
La Biblioteca aveva rivelato il piano per la prima volta in un tweet il 14 aprile 2010, ma prima di aver messo a punto con Twitter la logistica per l’ acquisizione dei dati. Petabyte di dati.
‘’Abbiamo iniziato a ricevere parte del materiale l’ anno scorso – puntualizza Gavin -. Ora lo stiamo raccogliendo con un flusso quasi quotidiano’’.
L’ archivio sarà disponibile per chiunque sia associato alla Biblioteca, per ora unicamente nella sede di Washington. In questo momento – ha aggiunto – non abbiamo intenzione di rendere disponibile l’ archivio via web, ma ci potranno essere dei cambiamenti’’.
Ci sarà un embargo di sei mesi sui tweet e il materiale – ha sottolineato Twitter - potrà essere disponibile solo ‘’per usi scientifici e non per motivi commerciali’’.
Il problema però è capire come affinare i dati grezzi in modi utili. Classificazione per parole chiave? Per data? Per sentimenti? Per gusto di burrito?
Per ora, ha ammesso Gavin, la Biblioteca non ha ancora scelto neanche l’ interfaccia da usare per gli utenti.
Featured image, twitter site homepage.