AWS re:Invent 2023: le novità storage tra Express One Zone e integrazioni zero-ETL

Amazon Web Services (AWS) ha annunciato la disponibilità generale di Amazon Simple Storage Service (Amazon S3) Express One Zone durante l’evento AWS re:Invent. Questa nuova classe di storage è progettata per offrire prestazioni elevate in una singola zona, garantendo un accesso dati coerente in tempi nell’ordine dei singoli millisecondi per applicazioni con requisiti di latenza bassa. Vanta velocità di accesso ai dati fino a 10 volte superiori e costi delle richieste fino al 50% inferiori rispetto ad Amazon S3 Standard, rendendolo lo storage di oggetti cloud a latenza più bassa. Gli utenti possono collocare i loro dati nella stessa Availability Zone di AWS delle risorse di calcolo, ottimizzando le prestazioni e i costi per carichi di lavoro impegnativi.

Amazon S3, lanciato 17 anni fa, è il servizio di archiviazione cloud più popolare, con oltre 350 trilioni di oggetti e oltre 100 milioni di richieste al secondo. Nuovi casi d’uso come l’addestramento e l’inferenza di machine learning (ML), l’analisi interattiva e la creazione di contenuti multimediali richiedono tempi di risposta più rapidi nell’ordine dei singoli millisecondi. Le soluzioni esistenti comportano il trasferimento dei dati a cui si accede frequentemente a soluzioni di caching personalizzate, introducendo complessità e oneri operativi.

I clienti possono ridimensionare lo storage secondo necessità e accedere ai dati tramite le familiari API di Amazon S3. Il servizio è particolarmente vantaggioso per applicazioni ad alte prestazioni come l’addestramento di ML, dove la velocità è cruciale per un’efficienza di calcolo elevata. Gli utenti possono creare nuovi bucket di directory di Amazon S3 con pochi clic e sfruttare funzionalità come Mountpoint per Amazon S3, Server-Side Encryption e Block Public Access.

Aziende leader del settore come ChaosSearch, Cloudera, Colorfront e Pinterest hanno evidenziato i vantaggi di Amazon S3 Express One Zone. ChaosSearch, noto per il suo data lake nativo di Amazon S3, ha esperienze di query più veloci del 60% e risparmi sui costi. Cloudera segnala fino al 40% di prestazioni di lettura e scrittura più veloci, mentre Colorfront ottiene un’elaborazione video digitale accelerata fino al 70%. Pinterest registra miglioramenti di oltre 10 volte nella latenza e un aumento delle transazioni al secondo nell’elaborazione dei dati, consentendo un consumo più veloce dei dati e sperimentazioni più frequenti, riducendo nel contempo i costi infrastrutturali.

L’altra novità annunciata all’evento AWS riguarda le nuove integrazioni mirate a semplificare la connessione e l’analisi dei dati senza la necessità di costruire e gestire complessi flussi di lavoro ETL (estrarre, trasformare, caricare). Le nuove integrazioni coinvolgono Amazon Aurora PostgreSQL, Amazon DynamoDB e Amazon Relational Database Service (Amazon RDS) per MySQL con Amazon Redshift, agevolando la connessione e l’analisi di dati transazionali provenienti da diversi database relazionali e non relazionali. Inoltre, è ora possibile utilizzare Amazon OpenSearch Service per eseguire ricerche full-text e vector su dati DynamoDB in tempo quasi reale; questa funzionalità supporta operazioni avanzate di ricerca, migliorando le operazioni aziendali e l’esperienza dell’utente.

Queste integrazioni zero-ETL consentono ai clienti di sfruttare la vasta gamma di servizi di database e analytics di AWS per scoprire nuovi insights, innovare rapidamente e prendere decisioni basate sui dati. Swami Sivasubramanian, vice presidente di Data and Artificial Intelligence presso AWS, sottolinea che l’obiettivo è creare un futuro senza ETL, in cui l’integrazione dei dati non richieda sforzi manuali e i clienti possano facilmente accedere ai propri dati ovunque si trovino.

AWS riconosce che i dati sono il differenziatore per qualsiasi organizzazione, ma spesso provengono da fonti eterogenee, richiedendo strumenti e integrazioni complesse. L’obiettivo è superare le sfide associate alla costruzione e gestione di flussi ETL, che possono essere onerosi e soggetti a errori. AWS ha investito in capacità zero-ETL, come query federate in Amazon Redshift e Amazon Athena, e integrazioni tra Salesforce Data Cloud e AWS storage, dati e servizi di analytics, per semplificare l’accesso e l’integrazione dei dati.

Le nuove integrazioni senza ETL di Amazon Aurora PostgreSQL, Amazon DynamoDB e Amazon RDS for MySQL con Amazon Redshift semplificano l’analisi dei dati transazionali, eliminando la necessità di creare flussi dati separati. Questo consente alle organizzazioni di ottenere valore dai dati in modo più efficiente e di accedere facilmente e rapidamente a dati provenienti da diverse fonti per un’analisi approfondita in Amazon Redshift.

AWS re:Invent 2023: le novità storage tra Express One Zone e integrazioni zero-ETL

Francesco Destri