6 consigli per migliorare la resilienza IT nell'era digitale

Per la maggior parte della sua esistenza, la resilienza IT si è concentrata sui tempi di attività, assicurandosi che i sistemi non si interrompessero e, in caso contrario, riportandoli online il più rapidamente possibile. Ma questa è solo una parte dell’equazione in questa moderna era digitale. Oggi la resilienza IT significa molto di più. Si consideri, ad esempio, il punto di vista di Brad Stone. In qualità di CIO di Booz Allen Hamilton, Stone afferma di pensare alla resilienza in due dimensioni: la prima riguarda l’abilitazione del business senza interruzioni, mentre la seconda consiste nella capacità di adattarsi, affrontare il cambiamento e gestire gli imprevisti.

Inoltre, afferma Stone, la resilienza ora significa fare tutto ciò offrendo continuamente l’esperienza che gli utenti si aspettano. “Dieci anni fa, se ci fosse stata un’interruzione, l’avrebbero superata. Ma oggi utenti e leader aziendali si aspettano che la tecnologia funzioni sempre e sia un’esperienza straordinaria; le aspettative sono molto più alte ora perché l’IT ha assunto un’importanza sempre più grande. Gli utenti potrebbero non richiedere la perfezione, ma oggi i loro standard sono davvero molto elevati.”

Ciò a sua volta ha portato a un approccio più ampio per garantire la resilienza dell’IT oggi. Di seguito alcuni esperti e leader IT suggeriscono le best practice che i CIO dovrebbero adottare per garantire che soddisfino le attuali aspettative di resilienza.

Allinearsi alle esigenze aziendali

Ron Brown, direttore della resilienza aziendale per GuidePoint Security, una società di consulenza e servizi, definisce la resilienza IT come qualcosa che garantisca che la tecnologia sia sempre disponibile, anche se riconosce che una tale perfezione non esiste. “Dovete prepararvi al fatto che le cose ad un certo punto smetteranno di funzionare”.

I CIO possono prepararsi al meglio a questa inevitabilità essendo chiari su quali sistemi sono più importanti per l’azienda; tale chiarezza consente all’IT di sapere su cosa concentrarsi per primo durante qualsiasi tipo di interruzione.

“La prima cosa che dovete fare senza dubbio è essere allineati all’azienda e un’analisi dell’impatto aziendale può aiutare IT e business a ottenere questo allineamento. Una volta che avete compreso quali sono i requisiti per l’azienda, si tratta di mappare i servizi e le capacità di cui disponete e quali app vengono utilizzate da quali gruppi, in modo che se qualcosa va storto sapete dove concentrare le vostre priorità per risolvere il problema”.

Abbattere i silos

Richard Caralli, un ex CISO che ora lavora come consulente senior per Axio Global, una società di gestione del rischio informatico, afferma di vedere la resilienza come “una proprietà emergente che si estende dalla gestione del rischio operativo”. Per farlo bene, le operazioni IT e la sicurezza informatica dovrebbero collaborare con i leader che supervisionano la pianificazione della continuità aziendale e del ripristino di emergenza. Questo, però, non sempre accade, dice Caralli.

“Queste attività tendono a essere isolate in modo tale che ogni disciplina operi su diverse ipotesi e scenari di rischio, quando in realtà devono convergere e lavorare in modo collaborativo”. Ad esempio, il team di sicurezza informatica di un’organizzazione potrebbe concentrarsi sulla creazione di una strategia di difesa approfondita per garantire al meglio che possa prevenire le intrusioni, rilevarle se accadono e rispondere nel modo più appropriato. Ma il team potrebbe non essere così esperto nella pianificazione per “tornare alle normali condizioni operative il più rapidamente possibile con il minor numero di conseguenze” se la sicurezza informatica non lavora a stretto contatto con l’IT.

“Se i diversi team non si parlano, potrebbero pianificare o quantificare rischi diversi. Devono invece pianificare ed eseguire scenari comuni. Se guardate al rischio dal punto di vista dell’impatto e immaginate che il tipo di conseguenze che potrebbero verificarsi, potete iniziare a quantificare il rischio e quindi sapere dove spendere soldi, se sul lato della prevenzione o su pratiche che ridurranno l’impatto”.

Migliorare le metriche

Con l’evoluzione della resilienza IT, Jorge Machado, partner della società di consulenza gestionale McKinsey & Co., afferma che i CIO dovrebbero adeguare le metriche che utilizzano per misurare e gestire le operazioni per assicurarsi di raggiungere i giusti obiettivi. “Tradizionalmente, se tornassimo indietro di un decennio, le metriche riguarderebbero il tempo di attività, la disponibilità delle applicazioni e il tempo medio di ripristino”, afferma Machado. “Ma al giorno d’oggi, poiché le app diventano più orientate ai microservizi e ci allontaniamo dai sistemi monolitici, dobbiamo misurare in un modo più sfumato”.

Fare pratica

Resilienza significa gestire con successo circostanze impreviste e, per riuscirci, Stone si assicura che il suo reparto IT non sia impreparato. Ciò significa allenamento, test e pratica con esercizi e simulazioni da tavolo. “Si tratta di eseguire esercizi, abbattere un cluster e vedere come rispondono le persone. Dovete farlo con attenzione e al momento giusto, ma deve far parte della vostra routine. Dovete avere esperienza con procedure operative standard, esaminarle e perfezionarle. Dovete essere disposti a mettere a disagio il vostro personale, sfidarlo”.

Stone afferma che tali esercizi offrono ai CIO e ai loro manager l’opportunità di identificare i punti deboli, come la mancanza di ridondanza nei lavoratori formati sulle tecnologie chiave o la mancanza di procedure di backup nel caso in cui una particolare applicazione fallisca.

Architettare la resilienza

I consulenti IT sottolineano che è importante creare resilienza nell’architettura stessa, ad esempio distribuendo istanze e payload in diverse località geografiche. Un modo per garantire la resilienza dei sistemi è “semplificare ciò che fate in modo da poterlo fare davvero bene per soddisfare le aspettative”, afferma Stone, che osserva come un tale approccio aiuti anche a evitare che i team si estendano eccessivamente.

Anche la combinazione dell’automazione per la gestione di incidenti, problemi e modifiche aiuta a creare resilienza. Gundurao consiglia di adottare l’ingegneria dell’affidabilità del sito (SRE), un insieme di principi e pratiche per le infrastrutture e le operazioni volte a creare sistemi scalabili e affidabili. SRE si concentra sulla creazione dell’IT non solo per funzionare bene quando tutto è tranquillo, ma per farlo anche nei momenti più difficili.

Andrew Long, Global Enterprise Architecture Lead di Accenture, vede le grandi organizzazioni tradizionali adottare sempre più i principi, le tecnologie e i metodi utilizzati dalle organizzazioni native del digitale per progettare sistemi IT più resilienti. “Ciò ha consentito alle aziende di migliorare la loro resilienza di fronte agli eventi disruptive e, quindi, di diventare più competitive”.

Per fare ciò, i leader IT stanno enfatizzando concetti come la velocità e l’agilità, la centralità dei dati e la decentralizzazione, nonché l’integrazione e la distribuzione continue, SRE e microservizi per fornire le capacità aziendali richieste in un modo più modulare e componibile. “I leader IT stanno inoltre passando dalla tradizionale consegna di progetti IT a cascata a operazioni IT più incentrate sul prodotto, che tendono a considerare requisiti più ampi e strategici che supportano la resilienza IT”, aggiunge Long. “Quasi tutte le organizzazioni hanno una parte del patrimonio IT nel cloud e la chiave di tutto è considerare quali funzionalità cloud uniche possono essere sfruttate per aumentare la capacità dell’organizzazione di diventare più agile e resiliente”.

Condividere la responsabilità

Anche il lato business ha un ruolo da svolgere nella resilienza IT e quindi anche i leader delle business unit dovrebbero assumersi una certa responsabilità. Machado non sostiene che le unità business dovrebbero assumere il controllo delle operazioni IT e della gestione quotidiana di app e sistemi, ma capire che i loro requisiti e priorità possono influire sulla resilienza. Ad esempio, se i leader delle business unit danno costantemente la priorità al time-to-market e alla velocità verso la creazione di valore, devono condividere la responsabilità se e in che misura ciò potrebbe influire sulla resilienza.

6 consigli per migliorare la resilienza IT nell’era digitale

Redazione DigitalWorld Italia