Secondo Gartner, i responsabili delle infrastrutture e delle operazioni (I&O) devono applicare 9 principi per massimizzare la resilienza degli ambienti cloud. “Il cloud non è magicamente resiliente e i bug del software, non i guasti fisici, sono la causa di quasi tutte le interruzioni del cloud” ha dichiarato Chris Saunderson, Sr Director Analyst di Gartner. “Nel cloud, le interruzioni non coinvolgono quasi mai l’intero cloud provider, né è probabile che le interruzioni del servizio siano totali. Sono invece tipici i guasti parziali, il degrado del servizio, i problemi di singoli servizi o i problemi locali”.

Il team I&O deve comprendere le caratteristiche e le cause comuni delle interruzioni del cloud. Tra queste, il fatto che la maggior parte dei guasti sia parziale e intermittente o comporti un degrado delle prestazioni meno evidente e che esistano differenze di resilienza tra i servizi offerti dai cloud provider.

“La resilienza non è uno stato binario”, continua Saunderson, “Nessuno può vantare una resilienza assoluta, né voi né i fornitori di cloud. I cloud dovrebbero essere altrettanto o addirittura più resilienti delle infrastrutture on-premises, ma solo se il team I&O li utilizza in modo resiliente”.

Gli analisti di Gartner consigliano ai leader I&O di concentrarsi su 9 principi chiave per migliorare la resilienza del cloud.

resilienza cloud

  • Allineamento al business: Allineare i requisiti di resilienza alle esigenze business. Senza questo allineamento sui requisiti, i team non riusciranno a soddisfare le aspettative di resilienza o spenderanno troppo
  • Approccio basato sul rischio: Adottare un approccio alla pianificazione della resilienza basato sul rischio che vada oltre gli eventi catastrofici. Bisogna porre maggiore enfasi sui guasti più comuni che le organizzazioni hanno un maggiore controllo per mitigare.
  • Mappatura delle dipendenze: Creare grafici di dipendenza che mappino tutti i componenti middleware, i database, i servizi cloud e i punti di integrazione in modo da poterli architettare e configurare per la resilienza e includerli nella pianificazione dell’affidabilità e del disaster recovery (DR).
  • Disponibilità continua: L’approccio della disponibilità continua si concentra sul mantenimento di applicazioni, servizi e dati disponibili in qualsiasi momento e livello di servizio, senza tempi di inattività e con un impatto limitato in caso di guasto.
  • Resilienza per progettazione: L’applicazione stessa deve essere resiliente per progettazione. La resilienza dell’infrastruttura da sola non è sufficiente a fornire i servizi a tempo zero che gli utenti finali si aspettano.
  • Automazione DR: L’implementazione di un disaster recovery (DR) completamente (o quasi) automatizzato, sia attraverso strumenti propri dell’organizzazione, sia attraverso strumenti di DR cloud-nativi di terze parti fornisce le basi necessarie per soddisfare gli obiettivi di tempo di ripristino (RTO) più aggressivi e consente di testare il DR di routine.
  • Standard di resilienza: Adottare standard di resilienza che vadano oltre l’architettura e il DR. I sistemi resilienti richiedono che i team si concentrino sulla qualità, sull’automazione e sul miglioramento continuo, infondendo la qualità in tutto il ciclo di vita di un’applicazione.
  • Favorire le soluzioni Cloud-Native: I fornitori di cloud hanno una vasta gamma di soluzioni che possono essere utilizzate per migliorare la resilienza. Se possibile, i leader I&O dovrebbero sfruttare queste soluzioni piuttosto che cercare di inventare le proprie alternative e aggiungere ulteriore complessità.
  • Focus sulle funzioni business: Piuttosto che limitarsi a pensare a un “failing over” uguale per tutti, è bene esplorare alternative, come alternative IT leggere o sostituzioni di applicazioni leggere che forniscano il minimo indispensabile di funzionalità business-critical.