Modello di responsabilità condivisa per la resilienza - Pilastro dell'affidabilità

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modello di responsabilità condivisa per la resilienza

La resilienza è una responsabilità condivisa tra te e AWS. È importante comprendere, nell'ambito della resilienza, il funzionamento del disaster recovery (DR) e della disponibilità in questo modello condiviso.

Responsabilità AWS: resilienza del cloud

AWS è responsabile della protezione dell'infrastruttura di esecuzione di tutti i servizi offerti nel Cloud AWS. Questa infrastruttura comprende l'hardware, il software, la rete e le strutture che gestiscono i servizi Cloud AWS. AWS compie sforzi commercialmente ragionevoli per rendere disponibili tali servizi Cloud AWS, garantendo che la loro disponibilità soddisfi o superi gli accordi sul livello di servizio (SLA) di AWS.

L'infrastruttura cloud globale di AWS è progettata per consentire ai clienti di creare architetture di carichi di lavoro altamente resilienti. Ogni Regione AWS è completamente isolata e comprende diverse zone di disponibilità, ossia partizioni completamente isolate della nostra infrastruttura. Le zone di disponibilità isolano gli errori che potrebbero influire sulla resilienza del carico di lavoro, impedendo loro di interessare altre zone nella regione. Allo stesso tempo, tutte le zone in una Regione AWS sono interconnesse con reti a larghezza di banda elevata e a bassa latenza, su una fibra ottica metropolitana dedicata e completamente ridondante che fornisce una rete ad alto throughput e bassa latenza tra le zone. Tutto il traffico tra zone è crittografato. Le prestazioni di rete sono adeguate per l'esecuzione della replica sincrona tra zone. In caso di partizione di un'applicazione tra zone di disponibilità, le aziende sono isolate e protette meglio da problemi come interruzioni dell'alimentazione, fulmini, tornado, uragani e altro ancora.

Responsabilità del cliente: resilienza del cloud

La tua responsabilità è determinata dai servizi Cloud AWS che scegli. La scelta definisce l'entità delle attività di configurazione che devi eseguire nell'ambito delle tue responsabilità nell'ambito della resilienza. Ad esempio, un servizio come Amazon Elastic Compute Cloud (Amazon EC2) richiede che il cliente esegua tutte le attività di configurazione e gestione della resilienza necessarie. I clienti che implementano istanze Amazon EC2 sono responsabili dell'implementazione delle istanze Amazon EC2 in più sedi (come le zone di disponibilità AWS), dell'implementazione della riparazione automatica tramite servizi come Auto Scaling e dell'utilizzo delle best practice per un'architettura resiliente per carichi di lavoro per le applicazioni installate sulle istanze. Per i servizi gestiti, come Amazon S3 e Amazon DynamoDB, AWS si occupa del livello dell'infrastruttura, del sistema operativo e delle piattaforme, mentre i clienti accedono agli endpoint per archiviare e recuperare i dati. Tu hai la responsabilità della gestione della resilienza dei dati, incluse le strategie di backup, controllo delle versioni e replica.

L'implementazione del carico di lavoro in più zone di disponibilità in una Regione AWS è parte di una strategia di disponibilità elevata progettata per proteggere i carichi di lavoro isolando i problemi in una zona di disponibilità, usando la ridondanza delle altre zone di disponibilità per continuare a gestire le richieste. Un'architettura multi-AZ è parte anche di una strategia di disaster recovery progettata per isolare e proteggere meglio i carichi di lavoro da problemi come le interruzioni dell'alimentazione, i fulmini, i tornado, i terremoti e altri ancora. Le strategie di disaster recovery possono usare anche più Regioni AWS. Ad esempio, in una configurazione con approccio attivo/passivo, il servizio per il carico di lavoro esegue il failover dalla regione attiva alla regione di disaster recovery se la regione attiva non può più gestire le richieste.

Grafico che mostra il modello di resilienza condiviso.

Responsabilità per la resilienza all'interno e del cloud per i clienti e AWS.

Puoi usare servizi AWS per realizzare gli obiettivi di resilienza. Come cliente, sei responsabile della gestione degli aspetti seguenti del sistema per realizzare la resilienza nel cloud. Per maggiori dettagli su ciascun servizio in particolare, consulta la documentazione AWS.

Reti, quote e vincoli

  • La sezione Fondamenti illustra le best practice per quest'area del modello di responsabilità condivisa.

  • Pianifica la tua architettura con un margine di scalabilità adeguato e analizza le quote di servizio, nonché i vincoli dei servizi inclusi, in base agli aumenti previsti delle richieste di carico, laddove applicabile.

  • Progetta la topologia di rete in modo che sia altamente disponibile, ridondante e scalabile.

Gestione delle modifiche e resilienza operativa

Osservabilità e gestione dei guasti

Architettura del carico di lavoro

  • L'architettura del carico di lavoro include la progettazione di servizi in base ai domini aziendali, l'applicazione della SOA e la progettazione di sistemi distribuiti per prevenire i guasti e l'integrazione di funzionalità come limitazione (della larghezza di banda della rete), nuovi tentativi, gestione delle code, timeout e leve di emergenza.

  • Affidati a soluzioni AWS comprovate, ad Amazon Builders' Library e a modelli serverless per allinearti alle best practice e avviare subito le implementazioni.

  • Apporta miglioramenti continui per scomporre il sistema in servizi distribuiti per una scalabilità e un'innovazione più rapide. Utilizza le indicazioni relative ai microservizi AWS e le opzioni di servizio gestito per semplificare e accelerare la tua capacità di introdurre modifiche e innovazioni.

Esecuzione continua di test dell'infrastruttura critica

  • Testare l'affidabilità significa eseguire test a livello funzionale, prestazionale e di caos, nonché adottare l'analisi degli incidenti e le pratiche delle giornate di gioco per acquisire competenze nella risoluzione di problemi non ben compresi.

  • Per applicazioni interamente nel cloud e ibride, la conoscenza del loro comportamento quando si verificano problemi o in caso di arresto dei componenti permette di recuperare rapidamente e in modo affidabile dalle interruzioni.

  • Crea e documenta esperimenti ripetibili per identificare il comportamento del sistema in situazioni impreviste. Questi test dimostreranno l'efficacia della resilienza complessiva e forniranno un ciclo di feedback per le procedure operative prima di affrontare scenari di errore reali.