• "Data Science"
  • "Data Science"
  • "Data Science"

DIK - Data, Information, Knowledge


La pagina di Piero Melli

L'acronimo DIK (vedi, per es. Wikipedia) si riferisce al modello concettuale piramidale con il quale vari studiosi hanno rappresentato le relazioni gerarchiche fra dati,informazione e conoscenza. Il processo che permette di passare dai dati elementari alle informazioni e quindi alla conoscenza comprende le metodologie di modellazione, organizzazione e rappresentazione dei dati, nonché le analisi e gli algoritmi che permettono di derivare relazioni di causa ed effetto fra i fenomeni che i dati descrivono in modo quantitativo e qualitativo. L'insieme di tutti questi strumenti, che oggi utilizzano sempre più la tecnologia informatica costituisce un supporto sempre più efficace nei processi decisionali relativi a qualsiasi attività.


L'analisi dei dati nelle aziende

L'analisi dei dati come attività informatica a sé stante, rivolta al supporto della gestione tattica e strategica dell'azienda, comincia ad affermarsi, fra alterne vicende, durante la seconda metà degli anni novanta e continua a evolvere nel ventennio seguente traendo vantaggio dalla prodigiosa evoluzione tecnologica verificatasi soprattutto nei settori del software e dello sviluppo del Web. L'area applicativa principe dell'analisi dei dati è ovviamente costituita da vendite e marketing, ma non mancano sperimentazioni in altri settori egualmente importanti, quali la produzione (es. il controllo dei difetti di fabbricazione) e i relativi servizi di manutenzione, i servizi amministrativo-finanziari (es. controllo di gestione e investigazione dei fenomeni fraudolenti) e, infine perfino, la gestione delle risorse umane. Nella presente discussione ci si riferisce soprattutto alle applicazioni al marketing senza insistere troppo sulle intuibili possibilità di estensione ad altre aree applicative. Il settore industriale più attivo nella sperimentazione e nell'adozione è quello finanziario (per ragioni normative più abituato a curare disponibilità e qualità dei dati dei clienti) seguito da telecomunicazioni, settore farmaceutico e sanitario, retail, manifatturiero, e, solo più recentemente il settore pubblico. In prima fila sono, ovviamente, le organizzazioni di maggior dimensioni; ciò è dovuto soprattutto alla percezione comune, falsa secondo la maggior parte degli esperti, che l'utilità derivante da questa attività sia minore per la piccola e media azienda.

Il Marketing Relazionale

A differenza dell'approccio tradizionale, basato su vendite, transazioni e comunicazione di massa, il marketing relazionale introduce il concetto di relazione a lungo termine con il cliente. Questa rivoluzione affonda le sue radici nel pensiero di un grande innovatore, Philip Kotler, il quale sosteneva che “Le imprese devono spostare la loro attenzione da obiettivi a breve termine, incentrati sulle transazioni, a obiettivi rivolti alla costruzione di relazioni a lungo termine con i clienti”. Successivamente le idee di Kotler sono state riprese ed elaborate, fra gli altri da Don Pepper e Martha Rogers che hanno efficacemente pubblicizzato il concetto di one-to-one marketing, ossia del marketing personalizzato. E' interessante notare che la rivoluzione suddetta sia temporalmente parallela a quella verificatasi nell'informatica con l'analisi dei dati. Infine occorre notare che secondo gli autori citati il marketing relazionale è basato su tre capisaldi:
- Offrire maggior valore in termini di prodotti e servizi
- Fornire nuove basi per la fedeltà al marchio
- Utilizzare le nuove tecnologie

Il panorama odierno

Allo stato attuale dell'arte possiamo identificare tre filoni fondamentali nell'analisi dei dati nelle aziende:
1. Business Intelligence tradizionale
2. Advanced Analytics
3. Social Media, Text Mining, Big Data, Data Science

1. Business Intelligence tradizionale

La Business Intelligence tradizionale è la metodologia che permette la produzione di report, che illustrano in forma tabellare e/o in forma grafica l'andamento di un determinato fenomeno, normalmente le vendite, in funzione di vari parametri quali, il tempo, la geografia, le strutture organizzative aziendali, ecc. Alla base della metodologia è una struttura dati (normalmente appoggiata a una sistema di base dati di tipo relazionale o RDBMS) costituita da una tabella centrale (tabella dei fatti) contenente i record delle singole transazioni di vendita. Nelle colonne della tabella sono presenti i puntatori a una serie di tabelle relative ai parametri sopra menzionati, detti anche dimensioni. La struttura è nota comunemente come schema a stella (star-schema) dove il corpo della stella è la tabella dei fatti, mentre le dimensioni costituiscono i bracci della stella. SQL, il linguaggio d'interrogazione delle basi dati relazionali, costituisce il motore per la costruzione delle tabelle-risultato da rappresentare anche in forma grafica e quindi per la produzione dei report. Inizialmente tutti i report, dai più semplici ai più complicati, venivano costruiti solo dagli specialisti d'informatica e quindi distribuiti ai vari utenti finali. Oggi, accanto a tale modalità, gli strumenti più evoluti permettono quella che viene denominata 'self-service BI' ossia la costruzione di report direttamente da parte dell'utente finale mediante l'uso di un'interfaccia grafica che lo scherma dalla scrittura esplicita della query SQL corrispondente al report costruito. La 'self-service BI' non è tuttavia l'unica evoluzione della reportistica. L'abbattimento dei silos aziendali dei dati, favorito dall'affermarsi delle tecniche di data warehouse, ha portato alla costruzione di report più complessi dei semplici report delle vendite, basati su un unico star-schema. Si possono così rappresentare dei fenomeni più complessi, come, per es. il comportamento della clientela, magari integrando nella data warehouse anche i risultati degli algoritmi che verranno descritti al punto 2. La disponibilità di software di reportistica sia proprietario, sia Open Source, è molto ampia, il che permette al dipartimento IT delle aziende di selezionare il pacchetto che soddisfa al meglio le necessità locali e più facilmente si inserisce nell'infrastruttura tecnologica.


2. Advanced Analytics


Gli strumenti di reportistica forniscono un ottimo strumento di navigazione dei dati delle vendite. Permettendoci di rappresentarli a nostra scelta a vari stadi di aggregazione e di dettaglio ci danno la possibilità di rispondere efficacemente alla domanda "COME SONO ANDATE LE VENDITE?'.


Il clustering comportamentale


E' però evidente che per il dipartimento di Marketing questo sia solo il punto partenza. Per mettere in pratica gli insegnamenti del marketing relazionale gli esperti cercano invece una risposta alle seguenti domande:
A) Possiamo identificare gruppi di clienti (segmenti) che hanno esigenze molto simili, in modo da differenziare la nostra offerta in modo intelligente?
B) Quanto sono omogenei al loro interno tali gruppi e quanto diversi fra loro?
La maniera tradizionale di rispondere a tali domande è basata sull'esperienza e sull'intuito dell'esperto, corroborata da alcune misurazioni semplici, ma assai importanti, quali la ben nota triade RFM (Recency - quanto recentemente il cliente ha effettuato un acquisto, Frequency - quanto frequentemente si verificano gli acquisti, Monetary Value - spesa totale del cliente). Si stabiliscono degli intervalli per i singoli valori e utilizzando le query SQL si estraggono dalla base dati aziendale i gruppi di clienti che soddisfano tali condizioni stabilite a priori. Le tecniche di Advanced Analytics permettono di superare le limitazioni insite nel metodo tradizionale facendo uso di algoritmi che possono agire sull'insieme completo di informazioni disponibili sul cliente (dati anagrafici, dati qualitativi e quantitativi sugli acquisti effettuati, dati di richiesta di servizi, dati di contatto, ecc.). Tali algoritmi operano su una struttura dati diversa dallo star schema abituale nell'analisi dei dati di vendita. Essi adoperano infatti un'unica tabella, ospitata da un RDBMS, nella quale ciascuna riga rappresenta un cliente, mentre le colonne contengono tutta l'informazione relativa a quel cliente. La tabella si costruisce utilizzando i dati contenuti nell'anagrafica dei clienti, i dati delle vendite, i dati di contatto contenuti nei sistemi aziendali di CRM Operativo, ecc. mediante un procedimento di ETL. L'output dell'algoritmo di clustering è costituito invece da un'ulteriore colonna che specifica il numero del segmento cui il cliente appartiene. Se in una colonna della tabella di input è contenuto il numero di segmento assegnato con i metodo tradizionale è anche possibile stabilire un paragone fra i due criteri e apprezzare l'aumento di precisione fornito dal metodo basato sull'uso completo dei dati. Essendo basato su tutte le informazioni che l'azienda possiede sui suoi clienti questo tipo di clustering viene denominato spesso clustering comportamentale o, anche, data driven clustering. La natura e il significato dei vari segmenti costruiti si analizzano realizzando una serie di report del tutto simili a quelli prodotti per l'analisi delle vendite in modo da fornire una descrizione analitica ed esaustiva delle caratteristiche comportamentali e dei bisogni tipici del gruppo di clienti contenuti in un dato segmento. Il clustering comportamentale, soprattutto se applicato in maniera dinamica su finestre temporali di osservazione di ampiezza appropriata alla natura dell'attività dell'azienda, permette di conoscere in dettaglio la clientela dell'azienda e quindi di sostenere le attività di pianificazione strategica.


L'analisi predittiva


Il clustering comportamentale non è tuttavia l'unico strumento offerto dall'advanced analytics a supporto del marketing . L'analisi predittiva permette di costruire in maniera efficiente e razionale le liste di clienti cui indirizzare, sugli opportuni canali, offerte di nuovi prodotti o servizi potenzialmente di loro interesse. Si tratta dunque di un algoritmo di tipo tattico da applicare sistematicamente alla programmazione di campagne e promozioni. L'analisi predittiva adopera diversi algoritmi di machine learning, detti anche algoritmi di classificazione. Tali algoritmi analizzano il comportamento pregresso della clientela rispetto all'acquisto/non acquisto di un prodotto e servizio e assegnano a ciascuno dei clienti che attualmente non lo posseggono una probabilità che lo acquisiscano. Non resta quindi che scegliere il numero desiderato di destinatari dell'offerta/promozione fra i clienti con più alta probabilità di acquisizione. In parallelo a questa lista A sarà opportuno sempre effettuare la medesima promozione su una lista B ottenuta con le procedure tradizionali allo scopo di valutare quantitativamente e qualitativamente il miglioramento, anche economico, ottenuto mediante l'uso di maggiori informazioni sulla clientela. Oltre che per la fidelizzazione l'analisi predittiva viene spesso usata per il controllo dell'abbandono da parte dei clienti (churn analysis) e per l'acquisizione dei clienti (churn analysis) e per l'acquisizione dei clienti.


3. Social Media, Text Mining, Big Data, Data Science


Più che di un nuovo filone sarebbe forse più giusto parlare di un processo che gradualmente sta generalizzando ed espandendo le attività descritte ai punti 1 e 2, sfruttando soprattutto lo straordinario sviluppo del Web. Fino a pochi anni fa le analisi di cui sopra sono state, nei casi più fortunati, ristrette al perimetro dei dati strutturati della data warehouse aziendale, o, più comunemente, a sottoinsiemi della stessa. Le dimensioni delle basi dati raramente eccedevano pertanto le centinaia di Gigabytes. L'analisi di dati consisteva dunque fondamentalmente nella ricerca estensiva delle correlazioni fra le informazioni raccolte dall'azienda sui vari canali interni e sulla loro estrapolazione statistica in chiave conoscitiva e previsionale, come si è sopra spiegato per l'applicazione al marketing relazionale. La disponibilità a costi accessibili di memorie sempre più grandi e di connessioni di rete più veloci hanno negli ultimi anni portato alla sperimentazione, soprattutto sul web, del calcolo distribuito e hanno reso possibile la memorizzazione e il trattamento efficiente di moli di dati sempre più grandi. Il fenomeno 'Big Data' non è tuttavia solo connesso al volume di informazione, peraltro in continua ridefinizione. Si pensi che nel 2012 Gartner parlava di poche decine di Terabyte, mentre oggi parla di alcuni Petabyte. Accanto al volume occorre tenere infatti presente la varietà di dati oggi disponibili, peraltro non solo all'interno dell'azienda, ma sull'impressionante numero di siti accessibili liberamente o a pagamento:
- dati strutturati, prevalentemente su tecnologia relazionale o su file;
- dati testuali, prevalentemente in linguaggio naturale,
- dati provenienti dai disposivi collegati a internet (sensori, dispositivi mobili, apparati vari semplici e complessi, ecc)
- dati multimediali (immagini digitali, registrazioni audio, video, ecc.)
I social media (Facebook, Twitter, LinkedIn, ecc.), infine, sono sorgenti di dati di vario tipo, legati dalla particolare caratteristica di essere tutti insieme generati dalle attività 'sociali' delle persone e quindi potenzialmente utilizzabili per comprendere fenomeni di gruppo di indubbio interesse per il mondo aziendale. Per gestire la varietà e la velocità (la terza delle tre 'v' introdotte da Gartner nella definizione di Big Data) sono stati introdotti e sono oggetto di attiva sperimentazione, soprattutto nelle applicazioni sul web, nuovi sistemi di gestione di basi di dati che superano alcune delle rigidità del modello relazionale (NoSQL, NewSQL, InMemoryDB, GraphDB, ecc.). Il compito dell'analisi dei 'Big Data' è sicuramente altrettanto arduo di quello relativo alla loro organizzazione e manutenzione. Esso, infatti, non si può ridurre alla mera trasposizione delle tecniche usate in passato proprio perchè i 'Big Data' non provengono da ambiti omogenei come erano i vecchi dati aziendali, ma si riferiscono a insiemi diversi che magari si sovrappongono solo parzialmente fra loro e con lo stesso mondo aziendale. Più che in passato è pertanto necessario definire con cura e precisione il 'problema di business' ed effettuare una ricerca esaustiva dell'informazione utile disponibile, prima di scegliere gli strumenti informatici necessari allo sviluppo della soluzione. In questa ottica appare evidente che il termine Data Science non è una nuova etichetta per rinominare attività già svolte in passato con altri nomi (reportistica, data mining, advanced analytics, ecc.), ma un possibile nome per nuove professionalità, non ancora del tutto definite, necessarie per gestire la complessità che sta emergendo dal web e con la quale le aziende sono costrette a confrontarsi. Tali professionalità dovranno padroneggiare non solo gli strumenti tradizionali (pacchetti di reportistica, SQL, suite di Office nelle sue versioni più evolute, pacchetti software di Data mining e analisi statistica, ecc.) ma anche nuovi potenti strumenti di programmazione sul web come R, Python e simili (vedere, per esempio il corso 'The Data Scientist Toolset' su www.coursera.org). Tuttavia quello che distinguerà un ottimo 'Data Scientist' da tutti gli altri sarà non il potersi destreggiare fra linguaggi e pacchetti sempre più numerosi quanto piuttosto il business acumen, ossia la comprensione profonda del particolare problema che gli si pone davanti nel particolare contesto aziendale affrontato (cfr. The one language a Data Scientist must master, blog di Matt Reaney). Tale blog dovrebbe ispirare la ricerca degli specialisti di analisi dei dati a tutte le aziende che vogliono intraprendere una reale integrazione dell'uso intelligente dei dati nella loro attività quotidiana. Ancora più che in passato è necessario che i progetti di utilizzazione dei dati a scopo decisionale rappresentino iniziative di trasferimento tecnologico, oltre che frutto di stretta collaborazione fra fornitori qualificati, informatica aziendale e utenti finali. Il coinvolgimento di questi ultimi sin dalle prime fasi del progetto, soprattutto nella definizione degli obiettivi di business e nella stesura delle specifiche dei deliverable e delle relative modalità di utilizzazione, così come nella responsabilità della gestione del gruppo di lavoro, risultano essenziali ai fini del successo del progetto stesso.