Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modello di responsabilità condivisa per la resilienza
La resilienza è una responsabilità condivisa tra AWS te e te. È importante comprendere, nell'ambito della resilienza, il funzionamento del ripristino di emergenza e della disponibilità in questo modello condiviso.
AWS responsabilità - Resilienza del cloud
AWS è responsabile della resilienza dell'infrastruttura che gestisce tutti i servizi offerti in. Cloud AWS Questa infrastruttura comprende l'hardware, il software, la rete e le strutture che eseguono Cloud AWS i servizi. AWS compie sforzi commercialmente ragionevoli per rendere disponibili questi Cloud AWS servizi, garantendo che la disponibilità dei servizi soddisfi o superi gli accordi sui livelli AWS di servizio () SLAs
L'infrastruttura cloud globale di AWS
Responsabilità del cliente: resilienza del cloud
La responsabilità dell'utente è determinata dai servizi selezionati. Cloud AWS La scelta definisce l'entità delle attività di configurazione che devi eseguire nell'ambito delle tue responsabilità nell'ambito della resilienza. Ad esempio, un servizio come Amazon Elastic Compute Cloud (AmazonEC2) richiede al cliente di eseguire tutte le attività di configurazione e gestione della resilienza necessarie. I clienti che distribuiscono EC2 istanze Amazon sono responsabili della distribuzione delle istanze EC2 Amazon in più sedi (come le zone di disponibilità), dell'implementazione della riparazione automatica tramite servizi AWS come Auto Scaling e dell'utilizzo delle migliori pratiche di architettura resiliente per i carichi di lavoro per le applicazioni installate sulle istanze. Per i servizi gestiti, come Amazon S3 e Amazon DynamoDB AWS , gestisce il livello di infrastruttura, il sistema operativo e le piattaforme e i clienti accedono agli endpoint per archiviare e recuperare i dati. Tu hai la responsabilità della gestione della resilienza dei dati, incluse le strategie di backup, controllo delle versioni e replica.
La distribuzione del carico di lavoro su più zone di disponibilità in una Regione AWS fa parte di una strategia di alta disponibilità progettata per proteggere i carichi di lavoro isolando i problemi in una zona di disponibilità, che utilizza la ridondanza delle altre zone di disponibilità per continuare a soddisfare le richieste. Un'architettura multi-AZ è parte anche di una strategia di ripristino di emergenza progettata per isolare e proteggere meglio i carichi di lavoro da problemi come le interruzioni dell'alimentazione, i fulmini, i tornado, i terremoti e altri ancora. Le strategie di ripristino di emergenza possono usare anche più Regioni AWS. Ad esempio, in una configurazione con approccio attivo/passivo, il servizio per il carico di lavoro esegue il failover dalla regione attiva alla regione di ripristino di emergenza se la regione attiva non può più gestire le richieste.
Puoi utilizzare i AWS servizi per raggiungere i tuoi obiettivi di resilienza. Come cliente, sei responsabile della gestione degli aspetti seguenti del sistema per realizzare la resilienza nel cloud. Per maggiori dettagli su ciascun servizio in particolare, consulta la documentazione AWS.
Reti, quote e vincoli
-
La sezione Fondamenti illustra le best practice per quest'area del modello di responsabilità condivisa.
-
Pianifica la tua architettura con un margine di scalabilità adeguato e analizza le quote di servizio, nonché i vincoli dei servizi inclusi, in base agli aumenti previsti delle richieste di carico, laddove applicabile.
-
Progetta la topologia di rete in modo che sia altamente disponibile, ridondante e scalabile.
Gestione delle modifiche e resilienza operativa
-
La gestione delle modifiche comprende le modalità di introduzione e gestione delle modifiche nell'ambiente. L'implementazione delle modifiche richiede la creazione e l'aggiornamento di runbook e strategie di implementazione per l'applicazione e l'infrastruttura.
-
Una strategia resiliente per il monitoraggio delle risorse del carico di lavoro tiene conto di tutti i componenti, ivi comprese metriche tecniche e aziendali, notifiche, automazione e analisi.
-
I carichi di lavoro nel cloud devono adattarsi ai cambiamenti nella domanda in senso di riduzione orizzontale in risposta a riduzioni o fluttuazioni nell'utilizzo.
Osservabilità e gestione dei guasti
-
L'osservazione dei guasti attraverso il monitoraggio è necessaria per automatizzare la correzione in modo che i carichi di lavoro possano resistere ai guasti dei componenti.
-
La gestione dei guasti richiede il backup dei dati, l'applicazione delle best practice per consentire al carico di lavoro di resistere ai guasti dei componenti e la pianificazione del ripristino di emergenza.
Architettura del carico di lavoro
-
L'architettura del carico di lavoro include la progettazione di servizi in base ai domini aziendali, l'applicazione SOA e la progettazione di sistemi distribuiti per prevenire i guasti e l'integrazione di funzionalità come limitazione, nuovi tentativi, gestione delle code, timeout e leve di emergenza.
-
Affidati a soluzioni AWS
comprovate, ad Amazon Builders' Library e a modelli serverless per allinearti alle best practice e avviare subito le implementazioni. -
Apporta miglioramenti continui per scomporre il sistema in servizi distribuiti per una scalabilità e un'innovazione più rapide. Utilizza le indicazioni relative ai microservizi AWS
e le opzioni di servizio gestito per semplificare e accelerare la tua capacità di introdurre modifiche e innovazioni.
Esecuzione continua di test dell'infrastruttura critica
-
Testare l'affidabilità significa eseguire test a livello funzionale, prestazionale e di caos, nonché adottare l'analisi degli incidenti e le pratiche delle giornate di gioco per acquisire competenze nella risoluzione di problemi non ben compresi.
-
Per applicazioni interamente nel cloud e ibride, la conoscenza del loro comportamento quando si verificano problemi o in caso di arresto dei componenti permette di recuperare rapidamente e in modo affidabile dalle interruzioni.
-
Crea e documenta esperimenti ripetibili per identificare il comportamento del sistema in situazioni impreviste. Questi test dimostreranno l'efficacia della resilienza complessiva e forniranno un ciclo di feedback per le procedure operative prima di affrontare scenari di errore reali.