Dopo il down di AWS, dobbiamo interrogarci sui punti deboli dell’internet di oggi

Quello di ieri non solo è stato uno dei peggiori blackout di sempre per AWS, ma ha anche dimostrato come la centralizzazione dell’infrastruttura cloud possa trasformarsi in un singolo punto di fallimento per l’intera rete globale. Il disservizio, iniziato alle 00:24 ora del Pacifico nella regione US-EAST-1 (circa le 8:00 in Italia), ha infatti innescato una reazione a catena che ha paralizzato servizi in tutto il mondo, dall’Europa all’Asia, per oltre dodici ore consecutive.
Il problema ha avuto origine da un malfunzionamento del sistema DNS responsabile della risoluzione dell’endpoint API di DynamoDB. Questa apparentemente piccola anomalia ha scatenato un effetto domino devastante, compromettendo servizi critici come IAM (Identity and Access Management) e DynamoDB Global Tables . La dipendenza di questi servizi dall’infrastruttura centralizzata ha così trasformato un problema regionale in un blackout di internet globale.
L’analisi degli esperti rivela una verità scomoda. Nonostante AWS predichi la ridondanza attraverso multiple Availability Zone, l’intera architettura presenta un fondamentale tallone d’Achille. Come spiega Roy Illsley di Omdia, “US-EAST-1 ospita il piano di controllo comune per tutte le location AWS, eccetto il cloud governativo federale e quello europeo sovrano” . Questa centralizzazione significa che molti servizi “globali” dipendono fisicamente da endpoint situati nella Virginia del Nord.
Il paradosso dell’outage risiede nella sua portata geografica, con servizi europei completamente funzionanti che sono andati offline a causa di dipendenze nascoste da US-EAST-1. Sid Nag di Tekonyx chiarisce che “molti servizi globali utilizzati in Europa dipendono da infrastrutture o funzionalità del piano di controllo cross-region situate in US-EAST-1″ .
La risoluzione del problema DNS alle 02:24 PDT (quindi due ore dopo l’inizio del blackout) ha segnato solo l’inizio di una nuova fase critica. Durante il tentativo di ripristino, il sottosistema interno di EC2 responsabile del lancio delle istanze ha infatti subito un’ulteriore compromissione dovuta alla sua dipendenza da DynamoDB. Questo secondo livello di problemi ha reso inutilizzabile uno dei servizi fondamentali di AWS, ovvero la capacità di creare automaticamente server virtuali on-demand.
Come se non bastasse, i problemi di recovery hanno innescato un terzo livello di malfunzionamenti nei Network Load Balancer health checks, causando problemi di connettività di rete in servizi multipli come Lambda, DynamoDB e CloudWatch. AWS ha dovuto implementare throttling temporaneo per operazioni critiche come i lanci di istanze EC2, l’elaborazione delle code SQS tramite Lambda Event Source Mappings e le invocazioni asincrone di Lambda .
Con oltre 6,5 milioni di segnalazioni globali su Downdetector e più di 1.000 aziende colpite, l’outage ha sollevato questioni cruciali sulla compensazione economica. Henna Elahi di Grosvenor Law evidenzia come “un outage di questa portata può certamente esporre il provider e i suoi utenti a rischi di perdite, specialmente per le aziende che si affidano all’infrastruttura per operare servizi critici” .
“È troppo presto per valutare le ricadute economiche di questo incidente, ma giusto per contestualizzare, si stima che l’interruzione globale di CrowdStrike dello scorso anno sia costata all’economia del Regno Unito tra 1,7 e 2,3 miliardi di sterline. Incidenti come questo rendono evidente la necessità di un mercato del cloud più aperto, competitivo e interoperabile”, ha aggiunto Elahi.
L’incidente ha anche messo in luce la pericolosa dipendenza dell’ecosistema digitale globale da un singolo provider cloud. Nicky Stewart dell’Open Cloud Coalition (e non è certo l’unico) sottolinea che “l’outage massivo di AWS è un promemoria viscerale dei rischi della sovra-dipendenza da due provider cloud dominanti” (con riferimento anche ad Azure di Microsoft).
“Abbiamo urgentemente bisogno di una maggiore diversificazione nel cloud computing”, ha dichiarato la dottoressa Corinne Cath-Speth, responsabile digitale dell’organizzazione per i diritti umani Article 19 intervistata dal The Guardian. “L’infrastruttura che sostiene il dibattito democratico, il giornalismo indipendente e le comunicazioni sicure non può dipendere da un pugno di aziende”.
Secondo Madeline Carr, docente di politica globale e cybersecurity all’University College London, “l’argomento opposto è che solo queste grandi aziende hanno le risorse per offrire servizi resilienti e globali, ma resta una posizione rischiosa per il mondo intero”.
(Immagine in apertura: Shutterstock)