Prospettiva operativa: integrità e disponibilità - Panoramica dell'AWS Cloud Adoption Framework

Prospettiva operativa: integrità e disponibilità

La prospettiva operativa si concentra sulla garanzia che i servizi cloud vengano forniti a un livello concordato con le parti interessate aziendali. L'automazione e l'ottimizzazione delle attività consentono di dimensionare in modo efficace migliorando al contempo l'affidabilità dei carichi di lavoro. Questa prospettiva comprende nove funzionalità mostrate nella figura seguente. Le parti interessate comuni includono i responsabili dell'infrastruttura e delle operations, i tecnici responsabili dell'affidabilità del sito e i responsabili dei servizi informatici.

Un diagramma che illustra le funzionalità della prospettiva operativa di AWS CAF.

Funzionalità della prospettiva operativa di AWS CAF

  • Osservabilità: ottieni informazioni dettagliate utili e fruibili dei dati relativi alle infrastrutture e alle applicazioni. Quando operi alla velocità e alla scala del cloud, devi essere in grado di individuare i problemi non appena si presentano, idealmente prima che influiscano in modo deleterio sull'esperienza cliente. Sviluppa la telemetria (log, parametri e tracciamenti) necessaria per comprendere lo stato interno e l'integrità dei carichi di lavoro. Monitora gli endpoint delle applicazioni, valuta l'impatto sugli utenti finali e genera avvisi quando le misurazioni superano le soglie.

    È possibile utilizzare il monitoraggio di Synthetics per creare canary (script configurabili eseguiti secondo una pianificazione) in grado di monitorare endpoint e API. Implementa i tracciamenti per tracciare le richieste mentre attraversano l'intera applicazione e identificare colli di bottiglia o problemi di prestazioni. Ottieni informazioni dettagliate su risorse, server, database e reti utilizzando parametri e log. Imposta l'analisi in tempo reale dei dati delle serie temporali per comprendere le cause degli impatti sulle prestazioni. Centralizza i dati in un unico pannello di controllo, ottenendo una visione unificata delle informazioni critiche sui carichi di lavoro e sulle loro prestazioni.

  • Gestione degli eventi (AIOps): rileva gli eventi, valuta il loro potenziale impatto e determina l'operazione di controllo appropriata. Essere in grado di filtrare il rumore, concentrarsi sugli eventi prioritari, prevedere l'imminente esaurimento delle risorse, generare automaticamente avvisi e incidenti e identificare le cause probabili e le operazioni correttive permette di migliorare il rilevamento degli incidenti e i tempi di risposta. Stabilisci un modello di archiviazione degli eventi e sfrutta il machine learning (AIOps) per automatizzare la correlazione degli eventi, il rilevamento delle anomalie e la determinazione della causalità. Esegui l'integrazione con servizi cloud e strumenti di terze parti, inclusi sistema e processo di gestione degli incidenti. Automatizza le risposte agli eventi per ridurre gli errori causati dai processi manuali e assicurare risposte rapide e coerenti.

  • Gestione degli incidenti e dei problemi: ripristina rapidamente l'operatività del servizio e riduci l'impatto negativo sul business. Con l'adozione del cloud, i processi di risposta ai problemi di servizio e di integrità delle applicazioni possono essere altamente automatizzati, con conseguente maggiore tempo di funzionamento del servizio. Man mano che passi a un modello operativo maggiormente distribuito, la semplificazione delle interazioni tra team, strumenti e processi pertinenti permette di accelerare la risoluzione di incidenti critici e/o complessi. Definisci percorsi di escalation nei tuoi runbook e playbook, compresi gli eventi che attivano l'escalation e le procedure di escalation.

    Esercitati nelle simulazioni di risposta agli incidenti e incorpora le lezioni apprese nei tuoi runbook. Identificare i modelli di incidenti per determinare i problemi e le misure correttive. Sfrutta chatbot e strumenti di collaborazione per far interagire i team operativi, gli strumenti e i flussi di lavoro. Sfrutta irreprensibili analisi post-incidente per identificare i fattori che contribuiscono agli incidenti e sviluppare piani d'azione corrispondenti.

  • Gestione delle modifiche e dei rilasci: introduci e modifica i carichi di lavoro riducendo al minimo il rischio per gli ambienti di produzione. La gestione tradizionale dei rilasci è un processo complesso, lento da implementare e difficile da ripristinare. L'adozione del cloud offre l'opportunità di sfruttare le tecniche CI/CD per gestire rapidamente release e ripristino dello stato precedente. Stabilisci processi di modifica che consentano flussi di lavoro di approvazione automatizzati in linea con l'agilità del cloud. Usa sistemi di gestione dell'implementazione per monitorare e implementare le modifiche. Utilizza modifiche frequenti, minime e reversibili per ridurre l'ambito e l'impatto di una modifica. Testa le modifiche e convalida i risultati in tutte le fasi del ciclo di vita, per confermare le nuove funzionalità e ridurre al minimo il rischio e l'impatto delle distribuzioni non riuscite. Automatizza il ripristino dello stato precedente a uno stato corretto noto quando non vengono raggiunti i risultati previsti, per ridurre al minimo il tempo di ripristino e gli errori causati dai processi manuali.

  • Gestione delle prestazioni e della capacità: monitora le prestazioni dei carichi di lavoro e garantisci che la capacità soddisfi le esigenze attuali e future. Sebbene la capacità del cloud sia praticamente illimitata, le quote di servizio, le prenotazioni di capacità e i vincoli sulle risorse limitano la capacità effettiva dei carichi di lavoro. Tali vincoli di capacità devono essere compresi e gestiti in modo efficace. Identifica le principali parti interessate e concorda scopi, ambito, obiettivi e parametri. Raccoglie ed elabora dati sulle prestazioni ed esamina e rendiconta regolarmente le prestazioni rispetto agli obiettivi. Valuta periodicamente le nuove tecnologie per migliorare le prestazioni e, se necessario, raccomanda modifiche agli obiettivi e ai parametri. Monitora l'utilizzo dei carichi di lavoro, crea punti di riferimento per confronti futuri e identifica le soglie per espandere la capacità in base alle esigenze. Analizza la domanda nel tempo per garantire che la capacità corrisponda alle tendenze stagionali e alle condizioni operative in continuo cambiamento.

  • Gestione della configurazione: conserva un registro accurato e completo di tutti i carichi di lavoro in cloud, delle loro relazioni e delle modifiche alla configurazione nel tempo. Se non viene gestita in modo efficace, la natura dinamica e virtuale del provisioning delle risorse cloud può portare a una deriva della configurazione. Definisci e applica uno schema di assegnazione di tag che sovrapponga gli attributi di business all'utilizzo del cloud e sfrutta i tag per organizzare le risorse in base agli aspetti tecnici, aziendali e di sicurezza. Specifica i tag obbligatori e applica la conformità tramite la policy. Sfrutta l'Infrastructure as Code e gli strumenti di gestione della configurazione per il provisioning delle risorse e la gestione del ciclo di vita. Stabilisci configurazioni di riferimento e gestiscile tramite il controllo delle versioni.

  • Gestione delle patch: distribuisci e applica sistematicamente gli aggiornamenti software. Gli aggiornamenti software risolvono le vulnerabilità emergenti della sicurezza, correggono bug e introducono nuove funzionalità. Un approccio sistematico alla gestione delle patch garantisce la possibilità di beneficiare dei più recenti aggiornamenti riducendo al minimo i rischi per gli ambienti di produzione. Applica aggiornamenti importanti durante la finestra di manutenzione dedicata e aggiornamenti di sicurezza critici il prima possibile. Informa gli utenti in anticipo con i dettagli degli aggiornamenti imminenti e consenti loro di rinviare l'applicazione delle patch quando sono disponibili differenti controlli di mitigazione. Aggiorna le immagini della macchina e testa l'applicazione delle patch prima di passare agli ambienti di produzione. Per garantire la disponibilità continua durante l'applicazione delle patch, considera finestre di manutenzione separate per ogni zona di disponibilità (AZ) e ambiente. Esamina regolarmente la conformità delle patch e avvisa i team che risultano non conformi della necessità di applicazione degli aggiornamenti richiesti.

  • Gestione della disponibilità e della continuità: garantisci la disponibilità di informazioni, applicazioni e servizi business-critical. La creazione di soluzioni di backup abilitate dal cloud richiede un'attenta considerazione degli investimenti tecnologici esistenti, degli obiettivi di ripristino e delle risorse disponibili. Il ripristino tempestivo dopo disastri ed eventi di sicurezza permette di mantenere la disponibilità del sistema e la continuità aziendale. Esegui il backup dei dati e della documentazione in base a una pianificazione definita.

    Sviluppa un piano di ripristino di emergenza all'interno del più ampio piano di continuità aziendale. Identifica la minaccia, il rischio, l'impatto e il costo dei diversi scenari di emergenza per ciascun carico di lavoro e specifica di conseguenza Obiettivo del tempo di ripristino (RTO) e Obiettivo del punto di ripristino (RPO). Implementa la strategia di disaster recovery selezionata sfruttando l'architettura Multi-AZ o multi-regione. Valuta la possibilità di sfruttare l'ingegneria del caos per migliorare la resilienza e le prestazioni con esperimenti controllati. Esamina e testa regolarmente i tuoi piani e modifica il tuo approccio in base alle lezioni apprese.

  • Gestione delle applicazioni: analisi e risoluzione dei problemi delle applicazioni in un unico pannello di controllo. L'aggregazione dei dati delle applicazioni in un'unica console di gestione semplifica la supervisione operativa e accelera la risoluzione dei problemi delle applicazioni riducendo la necessità di cambiare contesto tra diversi strumenti di gestione.

    Effettua l'integrazione con altri sistemi operativi e gestionali, come gestione del portafoglio di applicazioni e CMDB, automatizza il rilevamento dei componenti e delle risorse delle applicazioni e consolida i dati delle applicazioni in un'unica console di gestione. Includi componenti software e risorse di infrastruttura e definisci diversi ambienti, come sviluppo, staging e produzione. Per risolvere i problemi operativi in modo più rapido e coerente, valuta la possibilità di automatizzare i runbook.