Questa settimana diverse interruzioni di servizio di Oracle Cloud Infrastructure (OCI) hanno colpito gli utenti di tutto il mondo e, dopo quanto accaduto ai servizi cloud di Microsoft dello scorso mese, ci ricordano l’importanza dell’ingegneria del sito per gli amministratori di sistema le cui aziende si affidano ad applicazioni mission critical basate sul cloud.

La più grande interruzione di OCI di questa settimana è iniziata lunedì e si è protratta fino a mercoledì, colpendo i clienti di Nord e Sud America, Australia, Asia Pacifico, Medio Oriente, Europa e Africa. “Gli ingegneri di Oracle hanno identificato un problema di prestazioni all’interno dell’infrastruttura back-end che supporta l’API OCI Public DNS, che ha impedito l’elaborazione di alcune richieste di servizio in entrata“, ha scritto l’azienda sul suo sito web. In un aggiornamento successivo, Oracle ha dichiarato di aver implementato “un approccio di mitigazione adattivo che utilizza ottimizzazioni in tempo reale del backend e la messa a punto del DNS Load Management per gestire le richieste attuali”.

Le interruzioni di Oracle hanno interessato diversi servizi cloud

Oracle ha dichiarato che l’interruzione ha causato diversi problemi ai clienti. I clienti OCI che utilizzano OCI Vault, API Gateway, Oracle Digital Assistant e OCI Search con OpenSearch, ad esempio, potrebbero aver ricevuto errori o guasti di tipo 5xx (associati a problemi del server), mentre i clienti di Identity potrebbero aver riscontrato problemi durante la creazione e la modifica di nuovi domini.

Inoltre, i clienti di Oracle Management Cloud potrebbero aver avuto difficoltà nel creare nuove istanze o di eliminare quelle esistenti. I clienti di Oracle Analytics Cloud, Oracle Integration Cloud, Oracle Visual Builder Studio e Oracle Content Management potrebbero infine aver riscontrato problemi durante la creazione di nuove istanze. A causa di un disservizio apparentemente non correlato, la suite ERP NetSuite di Oracle ha subito un’interruzione di servizio presso il suo data center di Boston, che ha portato a tempi di inattività che si sono protratti per oltre un giorno.

Oracle non ha specificato i motivi dell’interruzione del data center di Boston, ma il Register ha riferito in un tweet che “è stato segnalato del fumo in un sito del data center utilizzato da Oracle NetSuite proveniente da apparecchiature elettriche“. I vigili del fuoco hanno tolto l’alimentazione elettrica al sito e lo hanno quindi evacuato.

OracleCloud_2-640

Gli utenti di NetSuite segnalano dati non recuperati

I clienti di NetSuite hanno riferito su Reddit di non essere riusciti a recuperare i dati registrati mezz’ora prima dell’inizio dell’interruzione; un utente ha pubblicato una dichiarazione inviata da NetSuite secondo la quale “il punto di ripristino era circa 30 minuti prima dell’interruzione”. Il comunicato fa notare che in questi casi NetSuite fornisce agli utenti un report o un elenco delle transazioni create durante il periodo in cui i dati non potevano essere recuperati dai clienti.

Oracle sostiene che NetSuite ha avuto una disponibilità del 99,96% negli ultimi 12 mesi e, nemmeno a farlo apposta, le interruzioni di questa settimana arrivano pochi mesi dopo che l’amministratore delegato di Oracle Larry Ellison, durante una call per i risultati finanziari del secondo trimestre di dicembre, ha lanciato una frecciatina indiretta ad Amazon Web Services, che quel mese ha subito un’interruzione importante. Ellison, in quella occasione, ha dichiarato che Oracle è diversa dagli altri cloud perché “non va mai giù”.

I disservizi di Microsoft colpiscono gli utenti di tutto il mondo

Negli ultimi mesi si sono verificate altre gravi interruzioni del cloud. Il 7 febbraio, ad esempio, Microsoft Outlook e Teams hanno subito un’interruzione globale dei servizi avvenuta due settimane dopo un’altra interruzione di Microsoft a gennaio che ha colpito a livello globale non solo Outlook e Teams, ma anche servizi come Exchange Online, SharePoint Online e OneDrive for Business. Sebbene i giganti del cloud dispongano di data center e server ridondanti in quasi tutte le regioni, la perdita di dati è stata comune a molte interruzioni.

L’architettura del sistema cloud è fondamentale

“Le soluzioni basate sul cloud, come i loro equivalenti on-premise, devono essere progettate per garantire un’elevata disponibilità e continuità” ha affermato Sam Higgins, analista della società di ricerche di mercato Forrester. “Avere una base cloud e un’impronta globale non garantisce immediatamente il 100% di uptime per le applicazioni, soprattutto se queste hanno una lunga storia di on-premise alle spalle”.

Higgins ha aggiunto che altri fattori che portano a queste interruzioni sono le scelte dei clienti, come le configurazioni di residenza dei dati che possono limitare la quantità di repliche e backup dei dati che un cloud provider può implementare sulla sua rete di data center. “Se a questo si aggiungono una complessità di rete sempre più globale e il rischio di molteplici fattori (tra cui l’errore umano), si ottiene una tempesta perfetta in termini di interruzione e di potenziale perdita di dati. È questo rischio che ha spinto l’adozione dell’ingegneria dell’affidabilità del sito”, conclude Higgins.

di: Moumita Deb Choudhury, staff writer di Networkworld