Fase 4: Operare - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase 4: Operare

Questa fase si concentra sulle pratiche operative utilizzate dal sistema per mantenere e migliorare la resilienza. La creazione di una cultura dell'eccellenza operativa aiuta a stabilire standard e coerenza per queste pratiche.

Osservabilità

Per misurare efficacemente la resilienza, monitorate le applicazioni sia dal lato server che dal lato client.

Per il monitoraggio lato server, utilizza i tuoi strumenti di monitoraggio dell'infrastruttura preferiti. Con questi strumenti, configura dashboard, allarmi e notifiche per eventuali violazioni degli indicatori chiave di prestazione (KPI) per l'infrastruttura o le applicazioni. Se utilizzi Amazon CloudWatch, configura dashboard e allarmi per fornire avvisi su eventuali guasti dell'infrastruttura o dell'applicazione.

Usa Service Quotas e Servizio AWS questo ti aiuta a gestire le tue quote per molti. Servizi AWS Questo aiuta a prevenire problemi di quote di servizio durante la scalabilità dei carichi di lavoro di produzione. AWS Puoi anche creare CloudWatch allarmi che ti avvisano quando ti avvicini alla soglia per i servizi critici nel tuo carico di lavoro.

Per il monitoraggio lato client, imposta il monitoraggio sintetico creando script o canary che monitorino l'applicazione in base a parametri quali disponibilità, tempi di caricamento delle pagine o link interrotti. Il monitoraggio sintetico verifica continuamente l'esperienza dei clienti seguendo gli stessi percorsi e le stesse azioni dei clienti. Puoi usare Amazon CloudWatch Synthetics canaries per monitorare visivamente le tue applicazioni. Il modello di monitoraggio visivo ti aiuta a creare o aggiornare rapidamente canarie che confrontano le schermate dell'applicazione in esecuzione con le schermate di base. È inoltre possibile utilizzare CloudWatch RUM per eseguire il monitoraggio degli utenti in tempo reale per raccogliere e visualizzare dati lato client sulle prestazioni delle applicazioni Web provenienti da sessioni utente effettive quasi in tempo reale. È possibile visualizzare e analizzare dati, come i tempi di caricamento delle pagine, gli errori lato client e il comportamento degli utenti.

Risorse aggiuntive:

Resilienza continua

Rivedi periodicamente il livello di resilienza dei tuoi carichi di lavoro mission critical utilizzando il. AWS Well-Architected Tool Valuta anche la possibilità di organizzare una giornata di gioco per simulare un evento noto rispetto al quale hai stabilito meccanismi di resilienza. Ad esempio, è possibile simulare un danneggiamento della zona di disponibilità ed eseguire un failover Multi-AZ. Sebbene l'implementazione di queste attività possa richiedere un notevole livello di impegno, entrambe le pratiche garantiscono la resilienza del carico di lavoro rispetto alle modalità di errore per cui è stato progettato.