Big data e analytics: definizione, infrastruttura, best practice e casi d’uso in azienda

big data

Con l’espressione Big Data ci si riferisce a insiemi di dati che sono così grandi in volume e così complessi che i software e le architetture informatiche tradizionali non sono in grado di catturarli, gestirli ed elaborarli in un tempo ragionevole.

Se un database tradizionale può gestire tabelle magari composte di milioni di righe, ma su decine o poche centinaia di colonne, i big data richiedono strumenti in grado di gestire lo stesso numero di record, ma con migliaia di colonne.

In più, spesso i dati non sono nemmeno disponibili in forma strutturata, facilmente incasellabile in righe e colonne appunto, ma sono presenti sotto forma di documenti, meta dati, posizioni geografiche, valori rilevati da sensori IoT e numerose altre forme, dal semi-strutturato al completamente destrutturato.

La quantità e la complessità che fanno sì che un insieme di dati si possa definire “Big Data” è un tema dibattuto. In molti prendono il petabyte (1.000 terabyte) come soglia, e diversi progetti operano nel campo degli exabyte (1.000 petabyte). Considerare solo le dimensioni della base di dati è però ritenuto da molti un errore che può essere fuorviante per le aziende che, pur non disponendo di archivi così vasti, possono trarre comunque un vantaggio dall’uso di tecnologie e approcci big data, per esempio per estrarre valore da dati non strutturati, o che devono essere elaborati in tempi velocissimi (approccio chiamato a volte “Little Data”).

Si tende quindi a definire i contorni di un progetto Big Data analizzandolo per tre diversi aspetti, a cui ci si riferisce come le “tre V dei Big Data”:

  1. Il Volume di dati
  2. La grande Varietà nei tipi di dati
  3. La Velocità con cui i dati devono essere acquisiti o analizzati

I dati che compongono gli archivi Big Data possono provenire da fonti eterogenee, come dati di navigazione di siti web, social media, applicazioni desktop e mobile, esperimenti scientifici e – sempre più spesso – sensori e dispositivi di tipo Internet of Things.

Leggi anche: 25 aziende di Big Data da tenere d’occhio

Il concetto di Big Data porta con sé diversi elementi e componenti che permettono ad aziende e organizzazioni di sfruttare i dati per risolvere in modo pratico numerosi problemi di business. I diversi componenti da considerare sono:

  • L’infrastruttura IT per i Big Data;
  • L’organizzazione e la struttura di archiviazione dei dati;
  • Gli strumenti analitici per Big Data;
  • Le competenze tecniche e matematiche;
  • Non ultimo, un reale caso di business in cui i Big Data possano apportare valore.

Big Data Analytics

Quel che davvero permette di estrarre dai dati un valore utile al business sono le analisi interpretative che vi si possono applicare. Senza analisi, si tratta solo di dati senza valore, e che anzi comportano un notevole costo di archiviazione.

Applicando metodi e strumenti di analisi ai dati, le aziende possono trovare benefici come aumento delle vendite, miglior soddisfazione del cliente, maggiore efficienza e più in generale un aumento della competitività.

La pratica analitica comporta l’esaminare gli insiemi di dati, ricavarne gruppi omogenei tra loro per ottenere informazioni utili altrimenti nascoste, e trarre conclusioni e previsioni sulle attività future. Analizzando i dati, le aziende possono prendere decisioni di business più informate, per esempio su quando e dove effettuare una certa campagna marketing, o individuare una necessità che possa essere soddisfatta da un nuovo prodotto o servizio.

Le analisi sui Big Data si possono fare con applicazioni generiche di business intelligence, o con strumenti più specifici, anche sviluppati ad hoc utilizzando linguaggi di programmazione. Tra i metodi più avanzati di analytics troviamo il data mining, dove gli analisti elaborano grandi insiemi di dati per individuare relazioni, pattern e tendenze.

Una tecnica molto usata prevede di fare una prima analisi esplorativa, magari su un ridotto insieme di dati, allo scopo di individuare pattern e relazioni tra i dati, per poi eseguire un’analisi di conferma per verificare se le supposizioni estratte dalla prima analisi sono verificati nei fatti.

Un’altra grande distinzione è quella tra l’analisi quantitative dei dati (o analisi di dati numerici che esprimono valori quantificabili), e analisi qualitative, che si focalizza su dati non numerici, come immagini, video, suoni e testi non strutturati.

L’infrastruttura IT per i Big Data

Affiché un progetto Big Data possa avere successo, le aziende hanno bisogno di dedicare a questo carico di lavoro un’infrastruttura adeguata e spesso molto specifica, in grado di raccogliere, archiviare ed elaborare i dati per presentarli in una forma utile. Il tutto garantendo la sicurezza delle informazioni mentre sono archiviate e in transito.

Leggi anche: 100 best practice per mantenere al sicuro i Big Data

Al livello più alto, questo include sistemi di storage e server progettati per i Big Data, framework software, database, tool, software di analytics e integrazioni tra i Big Data e altre applicazioni. Molto spesso, questa infrastruttura è presente on-premises, o comunque in forma di macchine hardware collocate in un data center remoto. Cloud e virtualizzazione, considerate a ragione due architetture IT pratiche ed efficienti, spesso non si rivelano la scelta migliore per trattare i Big Data, soprattutto per quanto riguarda la fase di elaborazione dei dati.

Tra le tecniche usate per velocizzare le elaborazioni analitiche sui Big Data, infatti, ci sono l’uso di database in-memory e di schede grafiche accelerate (GPU), che devono continuamente scambiare dati con i dischi. È facile intuire che se la componente di elaborazione e memoria è lontana da quella di storage, a farne le spese sarà la connessione di rete. In ambienti cloud e virtualizzati, il volume dei dati e la velocità di elaborazione richiesta rischiano di generare dei colli di bottiglia nella componente di networking.

Per questo motivo si tende a preferire un’architettura composta da cluster di numerosi server fisici, anche a basso costo, dotati però di molta memoria RAM, una o più GPU e hard disk veloci, tutto accentrato sulla stessa scheda madre. Al tutto vengono abbinati strumenti software progettati per suddividere il carico di lavoro sui singoli server che compongono i cluster.

La regola generale ha ovviamente le sue eccezioni: elaborazioni batch che non hanno bisogno di risposte in tempo reale, e che magari devono essere eseguite solo saltuariamente (per esempio report finanziari, estratti conto o fatturazione di un servizio eseguiti mensilmente) possono essere eseguiti con profitto su un servizio cloud che viene acceso solo per le ore o i giorni necessari all’elaborazione, e poi disattivato per ridurre i costi.

Anche la semplice raccolta dei dati può comportare complessità e ostacoli. Se alcuni dati sono statici e sempre disponibili, come quelli derivanti da file, log e social media, altri devono essere raccolti ad alta velocità e immediatamente registrati senza ritardi, e questo può comportare sfide per quanto riguarda le prestazioni dello storage e della connettività. Esempi di dati dinamici che devono essere acquisiti in modalità “streaming” includono i segnali raccolti da sensori, transazioni economiche e finanziarie e tutti i dati generati dalla proliferazione di sensori IoT.

La sempre maggiore penetrazione delle soluzioni Internet of Thing, con le aziende che aggiungono sensori e connettività a ogni sorta di prodotto, dai gadget agli autoveicoli, sta facendo crescere una nuova generazione di soluzioni Big Data espressamente pensate per il mondo IoT.

Tra le opzioni di archiviazione più usate in ambito Big Data troviamo i tradizionali data warehouse, i data lake e il cloud storage.

  • Data warehouse
    I tradizionali sistemi su cui le applicazioni aziendali registrano i propri dati, dall’ERP al CRM, possono ovviamente costituire una delle fonti da cui le applicazioni Big Data attingono le informazioni.
  • Data lake
    I data lake sono repository di informazioni in grado di contenere volumi di dati estremamente grandi nel loro formato nativo, almeno fino al momento in cui è necessario effettuare elaborazioni e ricavare informazioni per le applicazioni di business. In quel caso, e solo a quel punto, i sistemi Big Data si occuperanno di estrarre da quei dati le informazioni via via richieste. La Internet of Things e le iniziative di trasformazione digitale, con la raccolta di informazioni dettagliate sui singoli clienti, stanno alimentando sempre più i data lake.
  • Cloud Storage per Big Data
    Sempre più dati aziendali sono archiviati nel cloud, talvolta in modalità object-storage, ed è spesso necessario far confluire questi dati nelle applicazioni Big Data.

Tecnologie specifiche per Big Data

Oltre all’infrastruttura IT generica appena descritta, esistono alcune tecnologie specifiche che sono essenziali alla riuscita di qualsiasi progetto di Big Data.

L’ecosistema Hadoop

hadoop

La libreria software Hadoop, un progetto open source della Apache Foundation, è un framework che permette la gestione di grandi set di dati, strutturati e non, e la loro elaborazione distribuita su cluster di computer usando modelli di programmazione molto semplici. È progettata per scalare da un singolo server fino a migliaia, ciascuno composto delle componenti di elaborazione e storage.

Il framework include diversi moduli:

  • Hadoop Common
    Le utility di base che supportano altri moduli Hadoop
  • Hadoop Distributed File System
    Fornisce accesso ad alta velocità ai dati, strutturati e non. Permette di “montare” qualsiasi fonte dati raggiungibile con un url.
  • Hadoop YARN
    Un framework per la schedulazione dei job e la gestione delle risorse del cluster
  • Hadoop MapReduce
    Un Sistema basato su YARN per l’elaborazione in parallelo di grandi data set
Leggi anche: Di quanti Hadoop abbiamo bisogno?

Apache Spark

Anch’esso parte dell’ecosistema Hadop, Apache Spark è un framework open source per le elaborazioni in cluster che serve come motore per la gestione di Big Data nel contesto di Hadoop. Spark è diventato uno dei principali framework di questo tipo e può essere utilizzato in molti modi diversi. Offre collegamenti nativi con diversi linguaggi di programmazione come Java, Scala, Python (specialmente la distribuzione Python Anaconda) e R, e supporta SQL, i dati streaming, il machine learning e l’elaborazione con database a grafo.

Scarica le nostre guide in PDF:
– Guida al linguaggio R – livello base
– Guida al linguaggio R – livello avanzato 

I database NoSQL

I database SQL tradizionali sono progettati per transazioni affidabili e per rispondere a query ad-hoc su dati ben strutturati. Questa rigidità rappresenta però un ostacolo per alcuni tipi di applicazioni. I database NoSQL superano questi ostacoli, memorizzando e gestendo i dati con modalità che permettono una grande flessibilità e velocità operativa. Diversamente dai database relazionali tradizionali, molti dei database NoSQL possono scalare in orizzontale su centinaia o migliaia di server.

Leggi anche: 11 Database SQL e NoSQL a confronto

Database In-memory

Un database in memoria (IMDB, da non confondere con l’Internet Movie Data Base) è un DBMS che utilizza principalmente la memoria RAM, e non l’hard disk, per archiviare i dati. Questo consente ovviamente una velocità di esecuzione molto maggiore, che rende possibili applicazioni di real time analytics su Big Data altrimenti impensabili.

Le competenze per i Big Data

Le difficoltà tecniche, teoriche e pratiche per la progettazione e l’esecuzione di applicazioni di Big Data richiedono competenze specifiche, che non sempre sono presenti nei reparti IT delle aziende che si sono formati su tecnologie differenti da quelle odierne.

Leggi anche: Le professioni del futuro, tra Big Data e intelligenza artificiale

Molte di queste competenze sono relative gli specifici strumenti per i Big Data, come Hadoop, Spark, NoSQL, i database in-memory e i software analitici. Altre competenze sono invece relative a discipline come data science, statistica, data mining, analisi quantitativa, visualizzazione dei dati, programmazione in generale e per gli specifici linguaggi (Python, R, Scala), strutturazione dei dati e algoritmi.

Leggi anche: Analisi dati: come formare i dipendenti

Affinché un progetto Big Data abbia successo, occorrono anche competenze manageriali, in particolare per quanto riguarda la progettazione e pianificazione delle risorse e la gestione dei conti, che con la crescita del volume di dati rischiano di crescere senza controllo.

Leggi anche: Cosa fa e quanto guadagna un data scientist

Al giorno d’oggi, molte delle figure che abbiamo indicato nelle righe precedenti sono tra le più richieste del mercato. Se avete una laurea in matematica o statistica ma vi mancano competenze informatiche, è il momento giusto per colmarle con corsi e formazione specifici per i Big Data. Ci sono enormi opportunità di lavoro.

Casi d’uso per i Big Data

I Big Data si possono impiegare per risolvere  numerosi  problemi di business, o per aprire nuove opportunità. Ecco alcuni esempi.

Customer analytics
Le aziende possono analizzare il comportamento dei consumatori in ottica di marketing multicanale per migliorare l’esperienza del cliente, aumentare i tassi di conversione, le vendite collaterali, offrire servizi e aumentare la fidelizzazione.

Analytics operazionale
Migliorare le prestazioni operative e fare un uso migliore degli asset aziendali sono l’obiettivo di molte organizzazioni. I Big Data posson aiutare le imprese a trovare nuovi modi per operare in modo più efficiente.

Prevenzione delle frodi e dei crimini
Aziende e governi possono individuare attività sospette attraverso il riconoscimento di pattern che possano indicare un comportamento fraudolento, prevenendone il manifestarsi o individuando il colpevole.

Ottimizzazione dei prezzi
Le aziende possono usare i dati per ottimizzare i prezzi applicati a prodotti e servizi, espandendo il proprio mercato o aumentando i ricavi.

Di Andrea Grassi e Bob Violino, Infoworld

Il valore economico dei flussi di dati in Europa: lo studio della Commissione

Il valore economico dei flussi di dati in Europa: lo studio della Commissione

Nel 2024 si stima che il volume dei flussi di dati cloud negli Stati membri dell'UE sarà di 46,000 Petabyte.  »

Francesco Destri // 28.03.2024
SAS e Axiante uniscono le forze: planning e pricing ottimizzati per il mercato italiano

SAS e Axiante uniscono le forze: planning e pricing ottimizzati per il mercato italiano

La partnership unisce l’expertise di Axiante alle tecnologie SAS con lo scopo di rispondere alle specifiche esigenze dei settori retail, supply chain e lifescience.  »

Francesco Destri // 27.03.2024
GenAI e analytics: Google integra Gemini in BigQuery

GenAI e analytics: Google integra Gemini in BigQuery

Da oggi i data engineer e i data analyst possono ora utilizzare le funzionalità di ragionamento multimodale e avanzato dei modelli Gemini per i loro dati BigQuery.  »

Francesco Destri // 08.03.2024
EU Data Boundary: le novità per Microsoft tra sicurezza e dati personali a livello locale

EU Data Boundary: le novità per Microsoft tra sicurezza e dati personali a livello locale

Microsoft ha annunciato miglioramenti nuove funzionalità per Microsoft Cloud nell’ambito dell’EU Data Boundary, puntando su trasparenza, sicurezza e dati personali a livello locale.   »

Francesco Destri // 12.01.2024
La data platform Cloudera tra cloud repatriation e Trusted AI

La data platform Cloudera tra cloud repatriation e Trusted AI

Uno studio di Cloudera rivela le principali preoccupazioni che stanno portando tre aziende europee su quattro a “riportare in casa” dal cloud alcuni dati e carichi di lavoro, anche per poter erogare soluzioni basate su IA generativa in modo sicuro e rispettoso della governance.  »

Andrea Grassi // 11.01.2024
Creare chatbot e app di IA generativa basate sui propri dati, con Haystack

Creare chatbot e app di IA generativa basate sui propri dati, con Haystack

Haystack è un framework open source che permette di creare in pochissimo tempo motori di ricerca e chat di IA generativa basati sui nostri documenti, grazie alla sua struttura modulare e flessibile fondata nodi preimpostati e pipeline  »

Giuseppe Maggi // 21.11.2023
Big Data e Analytics, la spesa in Italia sale del 18% a 2,85 miliardi

Big Data e Analytics, la spesa in Italia sale del 18% a 2,85 miliardi

L'IA generativa rende la qualità dei dati sempre più critica, e c'è un problema di data experience degli utenti di soluzioni analytics, spiega l’Osservatorio del Polimi  »

Daniele Lazzarin // 09.11.2023
Health Big Data, la piattaforma nazionale dei dati clinici centra i primi 3 obiettivi

Health Big Data, la piattaforma nazionale dei dati clinici centra i primi 3 obiettivi

Il progetto, finanziato dal MEF e coordinato dal Ministero della Salute, coinvolge 51 IRCCS di 4 Reti: Rete Cardiologica, Alleanza contro il cancro, Rete Neuroscienze, Rete Pediatrica IDEA  »

Luigi Ferro // 20.10.2023
Hitachi Virtual Storage Platform One: un nuovo approccio Hybrid Cloud al data storage

Hitachi Virtual Storage Platform One: un nuovo approccio Hybrid Cloud al data storage

Hitachi Virtual Storage Platform One è una piattaforma dati che permette di semplificare l’esperienza d’uso in materia di consumo e gestione dei block, dei file, degli oggetti e dei dati in mainframe.  »

Francesco Destri // 13.10.2023
Cisco compra Splunk per 28 miliardi: è la più grande acquisizione della sua storia

Cisco compra Splunk per 28 miliardi: è la più grande acquisizione della sua storia

L’obiettivo è rafforzare le capacità di threat prediction, detection e response di tutta l'offerta CIsco con la piattaforma di Big Data Analytics di Splunk   »

Daniele Lazzarin // 22.09.2023
Democratizzazione dei dati: 4 punti fermi per non perdere il controllo dei dati

Democratizzazione dei dati: 4 punti fermi per non perdere il controllo dei dati

Dal controllo degli accessi in base al ruolo aziendale fino alla gestione dei sistemi di back-end, la democratizzazione dei dati si dimostra sempre più importante.  »

Francesco Destri // 06.09.2023
La partnership tra IBM e OCTO Telematics per una mobilità sicura e sostenibile

La partnership tra IBM e OCTO Telematics per una mobilità sicura e sostenibile

Iniziata nel 2016, la collaborazione tra IBM e OCTO Telematics continua a rafforzarsi nel segno dei dati in cloud per una mobilità sempre più connessa, sicura e sostenibile.  »

Francesco Destri // 30.08.2023
Data pipeline: cos’è e come costruirne una efficace

Data pipeline: cos’è e come costruirne una efficace

Una data pipeline è un flusso organizzato di dati che, da una sorgente attraversa diverse fasi di consolidamento e strutturazione per arrivare poi a chi quei dati dovrà utilizzarli per applicazioni. La società odierna è pervasa da grandi flussi di dati e tali dati svolgono dei percorsi, partendo da una...  »

Giuseppe Maggi // 11.08.2023
Data Engineering: cos’è, quando si usa e che competenze servono

Data Engineering: cos’è, quando si usa e che competenze servono

La figura del Data Engineer non è sempre ben compresa, ma è indispensabile per trasformare i dati da materia prima grezza in una struttura organizzata e coerente, requisiti necessari per ogni analisi o elaborazione successiva. Ecco cosa fa e quali competenze deve avere.  »

Giuseppe Maggi // 08.08.2023
Infrastruttura dati insufficiente per 3 aziende italiane su 4

Infrastruttura dati insufficiente per 3 aziende italiane su 4

Quasi 3 aziende italiane su 4 dichiarano che l'infrastruttura dei dati è insufficiente a fronte dell'aumento delle sfide legate alla sicurezza e alla sostenibilità dei dati.  »

Francesco Destri // 17.07.2023
Snowflake: tutte le novità del Summit 2023 per accrescere il valore dei dati

Snowflake: tutte le novità del Summit 2023 per accrescere il valore dei dati

Snowflake ha annunciato una serie di innovazioni che puntano a rivoluzionare il modo in cui le organizzazioni possono fare tesoro dei dati che hanno a disposizione.  »

Francesco Destri // 29.06.2023
Consip, al via due gare da 1,4 mld per “Data management” e “Digital transformation”

Consip, al via due gare da 1,4 mld per “Data management” e “Digital transformation”

Il bando per servizi applicativi di data management (1 miliardo) è diviso in 6 lotti, quello di servizi di digital transformation (400 milioni) in 8 lotti  »

Daniele Lazzarin // 13.06.2023
OVHcloud e Serco collaborano alla piattaforma di dati DESP

OVHcloud e Serco collaborano alla piattaforma di dati DESP

Il progetto DESP dell’ESA sull’interazione tra fenomeni naturali e attività umane rappresenta una nuova tappa della collaborazione tra Serco e OVHcloud.  »

Francesco Destri // 09.06.2023
Un libro per imparare a fare Business Intelligence con Microsoft Power BI

Un libro per imparare a fare Business Intelligence con Microsoft Power BI

Una guida completa per l’analisi e la visualizzazione dei dati ricca di esempi pratici che mostrano fin da subito la reale applicazione di quanto si sta studiando  »

Pagina 1 di 11
Condividi