Modello di responsabilità condivisa per la resilienza - Pilastro dell'affidabilità

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modello di responsabilità condivisa per la resilienza

La resilienza è una responsabilità condivisa tra AWS te e te. È importante comprendere, nell'ambito della resilienza, il funzionamento del ripristino di emergenza e della disponibilità in questo modello condiviso.

AWS responsabilità - Resilienza del cloud

AWS è responsabile della resilienza dell'infrastruttura che gestisce tutti i servizi offerti in. Cloud AWS Questa infrastruttura comprende l'hardware, il software, la rete e le strutture che eseguono Cloud AWS i servizi. AWS compie sforzi commercialmente ragionevoli per rendere disponibili questi Cloud AWS servizi, garantendo che la disponibilità dei servizi soddisfi o superi gli accordi sui livelli AWS di servizio () SLAs.

L'infrastruttura cloud globale di AWS è progettata per consentire ai clienti di creare architetture di carichi di lavoro altamente resilienti. Ciascuna Regione AWS è completamente isolata e consiste in più zone di disponibilità, che sono partizioni dell'infrastruttura fisicamente isolate. Le zone di disponibilità isolano gli errori che potrebbero influire sulla resilienza del carico di lavoro, impedendo loro di interessare altre zone nella regione. Allo stesso tempo, tutte le zone di un Regione AWS sono interconnesse con reti ad alta larghezza di banda e bassa latenza, tramite fibra metropolitana dedicata e completamente ridondante che fornisce reti ad alta velocità e bassa latenza tra le zone. Tutto il traffico tra zone è crittografato. Le prestazioni di rete sono adeguate per l'esecuzione della replica sincrona tra zone. Quando un'applicazione è partizionataAZs, le aziende sono meglio isolate e protette da problemi come interruzioni di corrente, fulmini, tornado, uragani e altro ancora.

Responsabilità del cliente: resilienza del cloud

La responsabilità dell'utente è determinata dai servizi selezionati. Cloud AWS La scelta definisce l'entità delle attività di configurazione che devi eseguire nell'ambito delle tue responsabilità nell'ambito della resilienza. Ad esempio, un servizio come Amazon Elastic Compute Cloud (AmazonEC2) richiede al cliente di eseguire tutte le attività di configurazione e gestione della resilienza necessarie. I clienti che distribuiscono EC2 istanze Amazon sono responsabili della distribuzione delle istanze EC2 Amazon in più sedi (come le zone di disponibilità), dell'implementazione della riparazione automatica tramite servizi AWS come Auto Scaling e dell'utilizzo delle migliori pratiche di architettura resiliente per i carichi di lavoro per le applicazioni installate sulle istanze. Per i servizi gestiti, come Amazon S3 e Amazon DynamoDB AWS , gestisce il livello di infrastruttura, il sistema operativo e le piattaforme e i clienti accedono agli endpoint per archiviare e recuperare i dati. Tu hai la responsabilità della gestione della resilienza dei dati, incluse le strategie di backup, controllo delle versioni e replica.

La distribuzione del carico di lavoro su più zone di disponibilità in una Regione AWS fa parte di una strategia di alta disponibilità progettata per proteggere i carichi di lavoro isolando i problemi in una zona di disponibilità, che utilizza la ridondanza delle altre zone di disponibilità per continuare a soddisfare le richieste. Un'architettura multi-AZ è parte anche di una strategia di ripristino di emergenza progettata per isolare e proteggere meglio i carichi di lavoro da problemi come le interruzioni dell'alimentazione, i fulmini, i tornado, i terremoti e altri ancora. Le strategie di ripristino di emergenza possono usare anche più Regioni AWS. Ad esempio, in una configurazione con approccio attivo/passivo, il servizio per il carico di lavoro esegue il failover dalla regione attiva alla regione di ripristino di emergenza se la regione attiva non può più gestire le richieste.

Grafico che mostra il modello di resilienza condiviso.

Responsabilità per la resilienza all'interno e del cloud per i clienti e AWS.

Puoi utilizzare i AWS servizi per raggiungere i tuoi obiettivi di resilienza. Come cliente, sei responsabile della gestione degli aspetti seguenti del sistema per realizzare la resilienza nel cloud. Per maggiori dettagli su ciascun servizio in particolare, consulta la documentazione AWS.

Reti, quote e vincoli

  • La sezione Fondamenti illustra le best practice per quest'area del modello di responsabilità condivisa.

  • Pianifica la tua architettura con un margine di scalabilità adeguato e analizza le quote di servizio, nonché i vincoli dei servizi inclusi, in base agli aumenti previsti delle richieste di carico, laddove applicabile.

  • Progetta la topologia di rete in modo che sia altamente disponibile, ridondante e scalabile.

Gestione delle modifiche e resilienza operativa

Osservabilità e gestione dei guasti

Architettura del carico di lavoro

  • L'architettura del carico di lavoro include la progettazione di servizi in base ai domini aziendali, l'applicazione SOA e la progettazione di sistemi distribuiti per prevenire i guasti e l'integrazione di funzionalità come limitazione, nuovi tentativi, gestione delle code, timeout e leve di emergenza.

  • Affidati a soluzioni AWS comprovate, ad Amazon Builders' Library e a modelli serverless per allinearti alle best practice e avviare subito le implementazioni.

  • Apporta miglioramenti continui per scomporre il sistema in servizi distribuiti per una scalabilità e un'innovazione più rapide. Utilizza le indicazioni relative ai microservizi AWS e le opzioni di servizio gestito per semplificare e accelerare la tua capacità di introdurre modifiche e innovazioni.

Esecuzione continua di test dell'infrastruttura critica

  • Testare l'affidabilità significa eseguire test a livello funzionale, prestazionale e di caos, nonché adottare l'analisi degli incidenti e le pratiche delle giornate di gioco per acquisire competenze nella risoluzione di problemi non ben compresi.

  • Per applicazioni interamente nel cloud e ibride, la conoscenza del loro comportamento quando si verificano problemi o in caso di arresto dei componenti permette di recuperare rapidamente e in modo affidabile dalle interruzioni.

  • Crea e documenta esperimenti ripetibili per identificare il comportamento del sistema in situazioni impreviste. Questi test dimostreranno l'efficacia della resilienza complessiva e forniranno un ciclo di feedback per le procedure operative prima di affrontare scenari di errore reali.