Per comprenderne meglio il ruolo crescente nell’ambito dei big data, Taneja Group ha condotto una ricerca su Apache Spark su su un campione di circa 7.000 persone composto da ruoli tecnici e manageriali direttamente coinvolti in progetti big data in tutto il mondo. Spark, per chi non lo sapesse, è lo standard aperto per l’elaborazione flessibile dei dati in-memory che consente analisi batch avanzate e in tempo reale sulla piattaforma Apache Hadoop.

“Da questa ricerca su Apache Spark abbiamo scoperto che, analizzando una vasta gamma di settori, dimensioni aziendali e livelli di maturità dei big dati rappresentati differenti, oltre la metà degli intervistati sta già utilizzando attivamente Spark. Inoltre, con un numero crescente di carichi di lavoro che richiedono lo streaming dei dati in tempo reale per l’analisi, l’emergere di applicazioni di apprendimento automatico e di casi d’uso in ambito data science, la piattaforma Spark è destinata a imporsi con l’obiettivo di dare seguito a queste richieste” ha dichiarato Mike Matchett, analista senior e consulente presso Taneja Group.

I principali risultati dello studio, intitolato Apache Spark Market Research Study, comprendono un elevato livello di crescita e di slancio nell’utilizzo di Spark al di là dei carichi di lavoro di elaborazione dati/ETL/progettazione e di un futuro passaggio alle distribuzioni in cloud.

ricerca su apache spark

Di quelli che attualmente stanno utilizzando Spark, il 64% afferma che la piattaforma si sta dimostrando preziosa e che se ne intende ampliare l’uso entro i prossimi 12 mesi; anche l’adozione da parte di nuovi utenti Spark è in crescita, con 4 persone su 10 esperti di progetti big data che prevedono di distribuire Spark a breve.

Il 57% si affida a Spark, fornito da Cloudera, per i casi di utilizzo più importanti, oltre il doppio dei tre fornitori di Apache Hadoop più prossimi combinati insieme. A parte i carichi di lavoro previsti di elaborazione dei dati/progettazione/ ETL, che costituiscono il 55% dell’uso di Spark a oggi, le principali iniziative attive di Spark includono l’elaborazione di flusso in tempo reale, la scienza esplorativa dei dati e l’affermazione di Spark per l’apprendimento automatico.

L’indagine descrive, inoltre, il ruolo superiore del cloud pubblico e di Spark: “È interessante notare che, mentre le distribuzioni di Spark on-premise sono oggi dominanti, c’è un forte interesse nell’effettuare la transizione di molte di queste distribuzioni nel cloud”, ha dichiarato Matchett. “Nel complesso la distribuzione di Spark nel cloud privato e pubblico (IaaS o PaaS) dovrebbe aumentare in modo significativo dal 23% al 36% in futuro”.