Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modello di responsabilità condivisa per la resilienza
La resilienza è una responsabilità condivisa tra te e AWS. È importante comprendere, nell'ambito della resilienza, il funzionamento del disaster recovery (DR) e della disponibilità in questo modello condiviso.
Responsabilità AWS: resilienza del cloud
AWS è responsabile della protezione dell'infrastruttura di esecuzione di tutti i servizi offerti nel Cloud AWS. Questa infrastruttura comprende l'hardware, il software, la rete e le strutture che gestiscono i servizi Cloud AWS. AWS compie sforzi commercialmente ragionevoli per rendere disponibili tali servizi Cloud AWS, garantendo che la loro disponibilità soddisfi o superi gli accordi sul livello di servizio (SLA) di AWS
L'infrastruttura cloud globale di AWS
Responsabilità del cliente: resilienza del cloud
La tua responsabilità è determinata dai servizi Cloud AWS che scegli. La scelta definisce l'entità delle attività di configurazione che devi eseguire nell'ambito delle tue responsabilità nell'ambito della resilienza. Ad esempio, un servizio come Amazon Elastic Compute Cloud (Amazon EC2) richiede che il cliente esegua tutte le attività di configurazione e gestione della resilienza necessarie. I clienti che implementano istanze Amazon EC2 sono responsabili dell'implementazione delle istanze Amazon EC2 in più sedi (come le zone di disponibilità AWS), dell'implementazione della riparazione automatica tramite servizi come Auto Scaling e dell'utilizzo delle best practice per un'architettura resiliente per carichi di lavoro per le applicazioni installate sulle istanze. Per i servizi gestiti, come Amazon S3 e Amazon DynamoDB, AWS si occupa del livello dell'infrastruttura, del sistema operativo e delle piattaforme, mentre i clienti accedono agli endpoint per archiviare e recuperare i dati. Tu hai la responsabilità della gestione della resilienza dei dati, incluse le strategie di backup, controllo delle versioni e replica.
L'implementazione del carico di lavoro in più zone di disponibilità in una Regione AWS è parte di una strategia di disponibilità elevata progettata per proteggere i carichi di lavoro isolando i problemi in una zona di disponibilità, usando la ridondanza delle altre zone di disponibilità per continuare a gestire le richieste. Un'architettura multi-AZ è parte anche di una strategia di disaster recovery progettata per isolare e proteggere meglio i carichi di lavoro da problemi come le interruzioni dell'alimentazione, i fulmini, i tornado, i terremoti e altri ancora. Le strategie di disaster recovery possono usare anche più Regioni AWS. Ad esempio, in una configurazione con approccio attivo/passivo, il servizio per il carico di lavoro esegue il failover dalla regione attiva alla regione di disaster recovery se la regione attiva non può più gestire le richieste.
Puoi usare servizi AWS per realizzare gli obiettivi di resilienza. Come cliente, sei responsabile della gestione degli aspetti seguenti del sistema per realizzare la resilienza nel cloud. Per maggiori dettagli su ciascun servizio in particolare, consulta la documentazione AWS.
Reti, quote e vincoli
-
La sezione Fondamenti illustra le best practice per quest'area del modello di responsabilità condivisa.
-
Pianifica la tua architettura con un margine di scalabilità adeguato e analizza le quote di servizio, nonché i vincoli dei servizi inclusi, in base agli aumenti previsti delle richieste di carico, laddove applicabile.
-
Progetta la topologia di rete in modo che sia altamente disponibile, ridondante e scalabile.
Gestione delle modifiche e resilienza operativa
-
La gestione delle modifiche comprende le modalità di introduzione e gestione delle modifiche nell'ambiente. L'implementazione delle modifiche richiede la creazione e l'aggiornamento di runbook e strategie di implementazione per l'applicazione e l'infrastruttura.
-
Una strategia resiliente per il monitoraggio delle risorse del carico di lavoro tiene conto di tutti i componenti, ivi comprese metriche tecniche e aziendali, notifiche, automazione e analisi.
-
I carichi di lavoro nel cloud devono adattarsi ai cambiamenti nella domanda in senso di riduzione orizzontale in risposta a riduzioni o fluttuazioni nell'utilizzo.
Osservabilità e gestione dei guasti
-
L'osservazione dei guasti attraverso il monitoraggio è necessaria per automatizzare la correzione in modo che i carichi di lavoro possano resistere ai guasti dei componenti.
-
La gestione dei guasti richiede il backup dei dati, l'applicazione delle best practice per consentire al carico di lavoro di resistere ai guasti dei componenti e la pianificazione del disaster recovery.
Architettura del carico di lavoro
-
L'architettura del carico di lavoro include la progettazione di servizi in base ai domini aziendali, l'applicazione della SOA e la progettazione di sistemi distribuiti per prevenire i guasti e l'integrazione di funzionalità come limitazione (della larghezza di banda della rete), nuovi tentativi, gestione delle code, timeout e leve di emergenza.
-
Affidati a soluzioni AWS
comprovate, ad Amazon Builders' Library e a modelli serverless per allinearti alle best practice e avviare subito le implementazioni. -
Apporta miglioramenti continui per scomporre il sistema in servizi distribuiti per una scalabilità e un'innovazione più rapide. Utilizza le indicazioni relative ai microservizi AWS
e le opzioni di servizio gestito per semplificare e accelerare la tua capacità di introdurre modifiche e innovazioni.
Esecuzione continua di test dell'infrastruttura critica
-
Testare l'affidabilità significa eseguire test a livello funzionale, prestazionale e di caos, nonché adottare l'analisi degli incidenti e le pratiche delle giornate di gioco per acquisire competenze nella risoluzione di problemi non ben compresi.
-
Per applicazioni interamente nel cloud e ibride, la conoscenza del loro comportamento quando si verificano problemi o in caso di arresto dei componenti permette di recuperare rapidamente e in modo affidabile dalle interruzioni.
-
Crea e documenta esperimenti ripetibili per identificare il comportamento del sistema in situazioni impreviste. Questi test dimostreranno l'efficacia della resilienza complessiva e forniranno un ciclo di feedback per le procedure operative prima di affrontare scenari di errore reali.