Gli analytics sono il fulcro della Data Science in quanto identificano i processi che consentono di estrarre valore dai dati.

Col termine data analytics si intende l’intero processo che parte dal dato, più o meno grezzo, e attraverso vari step di preparazione e trasformazione, analisi preliminari e estrazione di pattern e associazioni conduce al risultato finale che, a seconda dell’obiettivo e del campo applicativo, può essere una previsione, una classificazione, un modello o nuova conoscenza.

Per compiere questo processo si utilizzano diverse tecniche, anche note col nome di Machine Learning, che possono essere raggruppate in due macro categorie: tecniche esplorative (non supervisionate) e tecniche predittive (supervisionate).

Le tecniche esplorative consentono di valutare la qualità del dato, estrarre ricorrenze e sintetizzare l’informazione riducendo la dimensionalità o raggruppando le osservazioni. In generale queste tecniche consentono di ottenere nuova conoscenza e sono spesso utilizzate prima di applicare tecniche predittive. Esempi di tecniche di questo tipo sono: la visualizzazione, la rappresentazione grafica, l’analisi delle reti, le regole di associazione, i pattern sequenziali, il clustering, l’analisi delle componenti principali, l’analisi delle corrispondenze.

La loro caratteristica è quella di lasciare emergere dai dati le ricorrenze, le sequenze ripetute, le regolarità, senza guidare il processo al fine di individuarne la struttura latente.

Le tecniche predittive, al contrario, sono guidate (supervisionate) dalla conoscenza a priori del valore target (che può essere un valore quantitativo o una classe di appartenenza). Il loro obiettivo è di mappare i dati in input sull’output in modo da individuare la rete di relazioni, in altre parole il modello, che genera l’output.

Queste tecniche sono caratterizzate da una fase di addestramento, volta a generare il modello, e una fase di test, volta a valutare l’efficacia del modello, e si distinguono al loro interno in base al tipo di rappresentazione, alla funzione obiettivo e all’algoritmo di ottimizzazione. Esempi di tecniche di questo tipo sono: la regressione, gli alberi di decisione, Naive Bayes, le reti neurali, i Support Vector Machine, i k-Nearest Neighboors.

Nella pratica, per ottenere previsioni più accurate, si usano spesso metodi di bagging e boosting. Il primo consiste nel generare nuovi data set con campionamento casuale dal data set originale e addestrare un modello per ciascuno di essi (in parallelo) facendo poi la sintesi dei risultati ottenuti in un unico risultato finale, il secondo genera i nuovi data set in sequenza dando peso maggiore (e quindi maggiore probabilità di estrazione) ai casi che hanno generato previsioni errate nell’iterazione precedente, in modo da correggere in maniera mirata la capacità di previsione.