studio tarantelli, consulenza informatica, SEO e reti informatiche

Studio Tarantelli > Servizi > Data Mining

Cosa fa il Data Mining e perchè è utile

Con il termine Data Mining, letteralmente si indica "estrazione da una miniera di dati", che rappresenta praticamente un processo per ottenere conoscenze utili da un insieme di dati di grandi dimensioni, mediante l’utilizzo di tecniche informatiche e statistiche.

Il Data Mining ha l’obiettivo di far emergere da queste grandi basi di dati conoscenze interessanti fino a quel momento sconosciute, ecco perché spesso è associato al sinonimo di Knowledge Discovery in Databases, il cui acronimo associato è KDD.

Cosa vuol dire interessante?

  1. Nuova: ovvero qualcosa di non noto;
  2. Attesa: perché convalida una ipotesi fatta a priori e che con la validazione si può accertare;
  3. Implicita: perché pur essendo presente nei dati, questa informazione non era inizialmente ed immediatamente accessibile;
  4. Potenzialmente utile: perché utilizzabile e determinante per prendere decisioni;
  5. Comprensibile agli uomini: perché il dato estratto ovvero la conoscenza è qualcosa che è percepibile ed interpretabile all’essere umano;

Il processo per arrivare alla conoscenza è tipicamente interattivo ed iterativo per eseguire ricerca, estrazione ed interpretazione di pattern dai dati, definite appunto KDD, come si evidenzia anche dalla seguente figura.

data mining

In questa figura è indicata la sequenza operativa delle attività svolte nel Data Mining, a partire dalla base di dati (che spesso non è scontata), alla selezione dei dati di interesse per proseguire con la pulizia ed ottimizzazione necessaria per non avere dati ridondanti e soprattutto fuorvianti, seguito dal ridimensionamento e trasformazione dei dati che saranno analizzati mediante algoritmi specifici per raggiungere l’obiettivo della KDD. Al completamento si esegue una valutazione dei risultati e se questi non sono soddisfacenti o non hanno raggiunto l’obiettivo prefissato si innesca una retroazione verso le fasi precedenti.

In realtà la retroazione è possibile applicarla in ogni fase sopra citata, come visibile anche nella figura.

Al termine di tutto il processo si avrà la conoscenza, che verrà consolidata mediante l’integrazione e valutazione con le performance del sistema, mettendo a confronto i risultati con l’effettivo andamento della realtà dei fatti.

I vantaggi del Data Mining sono molteplici ed applicabili in molti contesti, infatti è possibile manipolare dati di tutti i formati, come testuali, immagini, sonori, etc, offre la possibilità di elaborare un gran numero di variabili e grazie alle tipologie di algoritmi ad oggi presenti si può scegliere un approccio personale con l’obiettivo di minimizzare il tempo di elaborazione, visualizzare i risultati ed interpretarli per i propri scopi.


Data Mining e Data Science

Il Data Mining è una branca innovativa racchiusa in una multi-disciplina denominata Data Science, ovvero la scienza dei dati, che è l'insieme di principi metodologici basati sul metodo scientifico e di tecniche multidisciplinari volte ad interpretare ed estrarre conoscenza dai dati attraverso la relativa fase di analisi da parte di un esperto, chiamato Data Scientist. (cit. Wikipedia)

Il focus della Data Science è l’ottimizzazione del "decision making", consentendo alle aziende, organizzazioni, enti, etc. di prendere decisioni guidate dai dati, che sono basate anche da esperienze effettive, dai dati storici e non semplicemente "guidate dall’intuizione", ecco perché il data scientist è al centro tra tutte le professionalità.

Al giorno d’oggi poter contare su un professionista Data Scientist come l'Ing. Mirko Tarantelli che dispone di questa specializzazione, può significare poter avere un approccio diverso e prevedere l’andamento dei mercati di interesse o averne una chiave di lettura differente ed utile per il futuro.


Limiti del Data Mining

Quali sono i limiti del Data Mining? Il più grande problema è la ricerca di dati corretti per l’estrazione, perché senza un dataset di qualità è impossibile procedere con l’analisi e l’estrapolazione delle informazioni.

Al di là di molti settori dove anche nel futuro si avrà un incremento dei dati legato a piattaforme di social network, al web e ad altre fonti di informazioni come pubblicità, dove le aziende specializzate possono attingere ai dati, ci sono settori come quelli della salute, dell’educazione, legali, etc. che sono limitate dalla Privacy, caratterizzate dal GDPR con il Regolamento Europeo 679/2016.

Fermo restando che la tutela dei dati personali è un diritto di ciascun cittadino, la frontiera del data mining è sicuramente limitata da questo e sarebbe utile che le Istituzioni instaurino una metodologia per anonimizzare i dati al fine di renderli utili in campi molto strategici, tipo la cura di malattie e/o la loro prevenzione o tutti quei settori dove possono aiutare le forze dell’ordine nella risoluzione di casi particolarmente gravi e lesivi per la comunità.


Come può esserti utile un professionista

Ogni azienda dalla più piccola alla multinazionale acquisisce molteplici dati, spesso anche inconsapevolmente e nelle forme più disparate, dai database, alle carte fedeltà, scontrini, sul web dai social, dalle richieste dei siti web, etc.

Conoscere i propri clienti è importantissimo per fidelizzarli e per capire i loro acquisti quando i numeri in gioco sono grandi per estrarre la conoscenza può risultare molto complesso, ma grazie ad un professionista Data Scientist puoi trovare ogni soluzione.

Un esempio reale e banale di estrazione della conoscenza? Sai che nei supermercati la disposizione degli scaffali è eseguita mediante attività di Data Mining?

Uno dei casi più famosi è quello del connubio tra patatine fritte e birra. Una famosa catena di supermarket voleva sapere la correlazione degli acquisti della propria clientela, ma non conosceva inizialmente come era composta.

Grazie ad un professionista in Data Mining ha scoperto che una altissima percentuale di persone che acquistava le patatine fritte, comprava insieme anche la birra. Quindi è stato molto semplice posizionare i due scaffali vicini per aumentare le vendite e quindi gli introiti. Questo è solo uno dei tantissimi esempi della grande distribuzione e non solo!

La conoscenza estratta senza le tecniche di Data Mining sarebbe stata impossibile, considerando le centinaia di migliaia di prodotti che un supermarket dispone ed è molto complesso evidenziare quanto rilevato.

Anche in campo sanitario l'ausilio di tecniche di estrazione della conoscenza è molto utilizzato, visto il considerevole volume di dati che si generano in questo settore e che possono risultare utili per la valutazione di fattori di rischio, per la cura di malattie, correlazioni di sintomi, etc.

L'estrapolazione dei dati può essere applicata in ogni ambito e non è detto che il risultato finale debba essere esclusivamente un aumento dei profitti, ma può benissimo essere associato al risparmio energetico, all'ottimizzazione della logistica ed ogni altra funzione che grazie a questa tecnologia può portare ad un vantaggio.

Se questa conoscenza estratta viene utilizzata come dati in input per un sistema previsionale mediante algoritmi di Machine Learning, ecco che si ha un modo automatizzato di prendere delle decisioni ed eseguire predizioni.


Pensi di aver bisogno di un professionista in Data Mining?



Testo estratto dalla tesi del Master in Data Scientist dell'Ing. Mirko Tarantelli.
© Tutti i diritti sono riservati. È vietato qualsiasi utilizzo, totale o parziale dei contenuti qui pubblicati.