Data Mining con R

Il 14 febbraio ho partecipato ad un webinar introduttivo sul Data Mining con R, e con Revolution R Enterprise in particolare (video e materiali sono disponibili all’indirizzo http://blog.revolutionanalytics.com/2013/02/video-data-mining-with-r.html).

Data Mining con R e RevolutionRevolution

R Enterprise è una distribuzione di R ottimizzata per il Data Mining, anche su database di grandi dimensioni (Big Data).

L’interfaccia di REvolution R Enterprise (Ulteriori dettagli nella wiki dedicata ad R).

Il video che segue presenta: l’uso dei pacchetti opensource rattle [1] — una GUI per il Data Mining —, caret [2], doParallel [3],e l’uso del pacchetto dedicato alla Big Data Analysis RevoScaleR[4].

Il codice degli esempi è disponibile all’indirizzo https://gist.github.com/joseph-rickert/4742529.

I pacchetti e le funzioni illustrate in questo video sono tutti disponibili nella distribuzione standard di R, con l’esclusione di RevoScaleR.

L’analisi statistica in ambito aziendale: quali prospettive in Italia?

Qualche considerazione conclusiva sulle strategie di marketing di Revolution Analytics.

La versione di R adattata all’uso aziendale (enterprise) ha un costo commerciale di 1.000 dollari, ma è gratuita per studenti, docenti e per la ricerca accademica ( versione academic).

Oltre a ciò, l’azienda è molto impegnata non solo nell’organizzare webinars gratuiti e completamente aperti (che hanno comunque una funzione immediatamente promozionale), ma anche nel diffondere l’uso di R nella sua versione open source, con un blog ( http://blog.revolutionanalytics.com/), con la sponsorizzazione di gruppi di utilizzatori di R, e con una costante ed attiva presenza su Twitter (@RevolutionR; le discussioni su R sono indicate dall’hashtag #rstats).

Con ben 2.000 iscritti al webinar e 700 partecipanti in diretta, una mia domanda alla quale lo speaker non ha potuto rispondere nell’immediato ha ricevuto risposta il giorno dopo via email.

Tutto questo induce a riflettere su due cose.

La prima è l’importanza data alla formazione nel modello di business adottato. In effetti, essendo R un ambiente di programmazione, e dovendo competere con software commerciali quali SAS e SPSS, più facili da utilizzare ma anche molto più costosi, la formazione è la migliore strategia di marketing possibile: prima insegnare ad utilizzare R, e convincere dunque i potenziali clienti che è possibile abbandonare Spss e quindi risparmiare (con un investimento in formazione in parte supportato dalla comunità); quindi proporre una versione che ne migliora le prestazioni, in certe condizioni e rispetto a certe esigenze.

Tale modello (ed è la seconda riflessione) si basa sul fatto che evidentemente negli Usa le imprese utilizzano o possono essere interessate ad usare software statistici; quelle piccole e medio-piccole e i liberi professionisti in particolare, per i quali i costi del cambiamento sono ampiamente compensati dal risparmio sui costi del software.

Quante aziende in Italia usano dei software per l’analisi statistica? Quante invece fanno conto su Excel, che è poco affidabile per l’analisi statistica [5], ed è talvolta utilizzato in maniera alquanto maldestra (come lasciano sospettare le voci sul ruolo svolto da fogli Excel mal gestiti nella vicenda JPMorgan [6])?

Note e riferimenti

[1] G. J. Williams, Data Mining with Rattle and R: The art of excavating data for knowledge discovery . Springer, 2011.

[2] M. K. C. from J. Wing, S. Weston, A. Williams, C. Keefer, A. Engelhardt, and T. Cooper, caret: Classification and Regression Training. R package version 5.15-61 . 2013. http://CRAN.R-project.org/package=caret

[3] R. Analytics, doParallel: Foreach parallel adaptor for the parallel package. R package version 1.0.1 . 2012. http://CRAN.R-project.org/package=doParallel

[4] R. Analytics, RevoScaleR: Scalable, distributable, fast, and extensible Data Analysis in R. R package version 3.1-0 . .

[5] A. T. Yalta, “The accuracy of statistical distributions in Microsoft® Excel 2007,” Computational Statistics & Data Analysis , vol. 52, no. 10, pp. 4579–4586, Jun. 2008. http://www.sciencedirect.com/science/article/pii/S0167947308001618

[6] J. Kwak, “The Importance of Excel,” The Baseline Scenario . 09-Feb-2013. http://baselinescenario.com/2013/02/09/the-importance-of-excel/

Se sei interessato a questo articolo, potrebbe interessarti la guida di R che sto preparando in una wiki dedicata. Puoi consultare gli articoli aggiornati, scaricarli in PDF e ODT (il formato di OpenOffice), e contribuire al suo mantenimento.