Come sbloccare il valore nascosto dei dark data

I leader IT che cercano di trarre valore dai dati raccolti dalle loro aziende devono affrontare una miriade di sfide. Forse la meno compresa è l’opportunità persa di non sfruttare i dati che vengono creati e spesso archiviati, ma con i quali raramente si interagisce in altro modo. Questi cosiddetti dark data sono informazioni raccolte di routine nel corso delle attività commerciali e generate da dipendenti, clienti e processi aziendali come file di registro da macchine, applicazioni e sistemi di sicurezza. Sono i documenti che devono essere salvati ai fini della conformità e i dati sensibili che non dovrebbero mai essere salvati, ma lo sono ancora.

Secondo Gartner, la maggior parte dell’universo delle informazioni aziendali è composta da dark data e molte aziende non sanno nemmeno quanti di questi dati hanno. La loro archiviazione aumenta i rischi per la conformità e la sicurezza informatica e, ovviamente, aumenta anche i costi. Capire quali dark data avete, dove sono conservati e quali informazioni contengono è un passaggio essenziale per garantire che le parti preziose di questi dati siano al sicuro e che quelli che non dovrebbero essere conservati vengano eliminati. Ma il vero vantaggio di portare alla luce queste sacche nascoste di dati potrebbe essere nel metterle in pratica a beneficio dell’azienda.

Il mining dei dark data non è però un compito facile. Sono infatti disponibili in un’ampia varietà di formati, possono essere completamente non formattati e racchiusi in documenti scansionati o in file audio o video, ad esempio. Ecco quindi uno sguardo a come alcune organizzazioni stanno trasformando i dark data in opportunità di business e quali consigli hanno gli addetti ai lavori del settore per i leader IT che cercano di fare lo stesso.

Audio codificato dai piloti di auto da corsa

Per cinque anni, l’azienda britannica Envision Racing ha raccolto registrazioni audio di oltre 100 gare di Formula E, ciascuna con più di 20 piloti. “Questi flussi audio sono disponibili su frequenze aperte per essere ascoltati da chiunque” afferma Amaresh Tripathy, leader globale dell’analisi dati presso Genpact, una società di consulenza che ha aiutato Envision Racing a utilizzare questi dark data.

In precedenza gli ingegneri dell’azienda britannica hanno cercato di utilizzare queste trasmissioni audio in tempo reale durante le gare, ma i nomi in codice e gli acronimi utilizzati dai piloti rendevano difficile capire cosa veniva detto e come utilizzarlo; un peccato visto che capire cosa dicevano gli altri piloti avrebbe potuto aiutare i piloti di Envision Racing con la loro strategia di gara.

Envision Racing raccoglieva anche i dati dei sensori dalle proprie auto, come pneumatici, batterie e freni, e acquistava dati esterni dai fornitori, come la velocità del vento e le precipitazioni. Genpact ed Envision Racing hanno collaborato per sbloccare il valore di questi flussi di dati, utilizzando l’elaborazione del linguaggio naturale per costruire modelli di deep learning per analizzarli. Il processo ha richiesto sei mesi, dalla preparazione della pipeline di dati, all’acquisizione dei dati, al filtraggio del rumore, alla generazione di conversazioni significative.

Secondo Tripathy gli esseri umani impiegano dai cinque ai dieci secondi per capire cosa stanno ascoltando, un ritardo che ha reso irrilevanti le comunicazioni radio. Ora, grazie alle previsioni e agli insight del modello di intelligenza artificiale, possono rispondere in uno o due secondi. A luglio, all’ABB FIA Formula E World Championship di New York, il team Envision Racing ha conquistato il primo e il terzo posto, un risultato che Tripathy attribuisce proprio all’utilizzo di quelli che in precedenza erano considerati dei dark data.

Dati generati dall’uomo

I file audio di Envision Racing sono un esempio di dark data generati dagli esseri umani e destinati al consumo da parte di altri esseri umani, non dalle macchine. Questo tipo di dati può essere estremamente utile per le aziende, afferma Kon Leong, co-fondatore e CEO di ZL Technologies, un fornitore di piattaforme di archiviazione dati. “I dark data possono fare molto per comprendere ogni elemento del lato umano dell’impresa, inclusi cultura, prestazioni, influenza, esperienza e coinvolgimento”, afferma Leong. “I dipendenti condividono quantità assolutamente enormi di informazioni e conoscenze digitali ogni singolo giorno, ma fino a questo punto sono state sfruttate solo in minima parte”.

Le informazioni contenute in e-mail, messaggi e file possono aiutare le organizzazioni a ricavare informazioni dettagliate su chi sono le persone più influenti nell’organizzazione. “L’80% del tempo in azienda viene dedicato alla comunicazione. Tuttavia, l’analisi spesso si occupa di dati che riflettono solo l’1% del nostro tempo speso”. L’elaborazione di dati non strutturati generati dall’uomo è estremamente impegnativa. I data warehouse non sono in genere configurati per gestire queste comunicazioni, ad esempio. Inoltre, la raccolta di queste comunicazioni può creare nuovi problemi da affrontare per le aziende, che hanno a che fare con conformità, privacy e disciplina legale.

“Queste capacità di governance non sono presenti nel concetto odierno di data lake e infatti, raccogliendo dati in un data lake, create un altro silo che aumenta i rischi per la privacy e la conformità”, afferma Leong. Invece, le aziende possono anche lasciare questi dati dove risiedono attualmente, aggiungendo semplicemente un livello di indicizzazione e metadati per la ricerca. Lasciare i dati al loro posto li manterrà anche all’interno delle strutture di conformità esistenti.

Una governance efficace è fondamentale

Un altro approccio alla gestione dei dark data di valore consiste nell’iniziare con la loro tracciabilità. “È uno sviluppo positivo nel settore il fatto che i dark data siano ora riconosciuti come una risorsa non sfruttata che può però essere sfruttata” afferma Andy Petrella, autore di Fundamentals of Data Observability. “La sfida con l’utilizzo dei dark data sta nel basso livello di fiducia in essi”, in particolare su dove e come vengono raccolti i dati. “L’osservabilità può rendere trasparente l’origine dei dati, che diventano quindi tracciabili. La tracciabilità, a sua volta, consente controlli della qualità dei dati che portano alla fiducia nell’utilizzo di questi dati per addestrare modelli di intelligenza artificiale o agire in base a essi”.

Chuck Soha, amministratore delegato di StoneTurn, una società di consulenza globale specializzata in questioni di regolamentazione, rischio e conformità, concorda sul fatto che l’approccio comune per affrontare i dark data, ovvero far confluire tutto in un data lake, pone rischi significativi. Questo è particolarmente vero nel settore dei servizi finanziari, dove le aziende raccolgono dati in data lake da anni. “In una tipica azienda, il reparto IT scarica tutti i dati disponibili a sua disposizione in un unico posto con alcuni metadati di base e crea processi da condividere con i team aziendali”, afferma Soha.

Questo funziona per i team aziendali che dispongono internamente del talento analitico richiesto o che si avvalgono di consulenti esterni per casi d’uso specifici, ma nella maggior parte dei casi queste iniziative hanno solo un successo parziale. Per evitare ciò, le aziende dovrebbero iniziare con la governance dei dati per capire quali dati ci sono e quali problemi potrebbero avere. “Gli stekeholder possono decidere se ripulire e standardizzare questi dati, o semplicemente ricominciare da capo con migliori pratiche di gestione delle informazioni”, continua Soha, aggiungendo che investire nell’estrazione di informazioni dettagliate da dati che contengono informazioni incoerenti o contrastanti sarebbe un errore.

Soha consiglia inoltre di mettere in relazione tra loro i buoni dati operativi già disponibili all’interno delle singole unità aziendali. Capire queste relazioni può dare vita a insight rapidi e utili che potrebbero non richiedere l’esame immediato dei dark data. Infine, l’IA può essere molto utile per aiutare a dare un senso ai dati non strutturati che rimangono. “Utilizzando il machine learning e le tecniche di intelligenza artificiale, gli esseri umani possono esaminare solo l’1% dei dark data e classificarne la pertinenza. Quindi, un modello di apprendimento di rinforzo può produrre rapidamente punteggi di pertinenza per i dati rimanenti, in modo da dare priorità ai dati a cui guardare più da vicino”.

Usare l’IA per estrarre valore

Le soluzioni comuni basate sull’intelligenza artificiale per l’elaborazione dei dark data includono Textract di Amazon, Azure Cognitive Services di Microsoft e Datacap di IBM, nonché Document, AutoML e NLP di Google. Nella partnership di Genpact con Envision Racing, Genpact ha codificato internamente gli algoritmi di machine learning, afferma Tripathy. Ciò ha richiesto la conoscenza di Docker, Kubernetes, Java e Python, nonché dello sviluppo di algoritmi di NLP, deep learning e machine learning.

Sfortunatamente, queste skill sono difficili da trovare. In un report pubblicato lo scorso autunno da Splunk, solo dal 10% al 15% degli oltre 1.300 decisori IT e business intervistati ha affermato che le loro organizzazioni stanno utilizzando l’IA per risolvere il problema dei dark data. La mancanza delle competenze necessarie è emersa come un ostacolo principale all’utilizzo dei dark data, seconda solo al volume dei dati stessi.

Un problema (e un’opportunità) in aumento

I dark data rimangono una fonte crescente di rischi e opportunità. Le stime della parte “oscura” dei dati aziendali variano dal 40% al 90%, a seconda del settore. Secondo un rapporto di luglio dell’Enterprise Strategy Group e sponsorizzato da Quest, in media il 47% di tutti i dati sono dark data, con un quinto degli intervistati che afferma che oltre il 70% dei propri dati sono dark data.

Ed è probabile che questa situazione peggiori prima di migliorare, dal momento che il 60% degli intervistati afferma che più della metà dei dati nella propria organizzazione non viene analizzata affatto e gran parte di essi non è nemmeno compresa. Poiché tali dati vengono trovati e memorizzati, la quantità di dark data continuerà ad aumentare. È giunto il momento che i CIO elaborino un piano su come affrontare la situazione, con l’obiettivo di sfruttare al meglio tutti i dark data che si dimostrano promettenti nella creazione di nuovo valore per il business.