Piani di controllo e piani dati - Modelli di resilienza Multi-AZ avanzati

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Piani di controllo e piani dati

Prima di passare agli schemi effettivi che è possibile utilizzare per eseguire l'evacuazione di una zona di disponibilità, dobbiamo discutere i concetti di piani di controllo e piani dati.AWSfa una distinzione tra piani di controllo e piani dati nei nostri servizi. I piani di controllo sono i meccanismi coinvolti nell'apportare modifiche a un sistema, aggiungendo risorse, eliminando risorse, modificando le risorse, e facendo sì che tali modifiche vengano propagate ovunque siano necessarie per avere effetto, ad esempio l'aggiornamento di una configurazione di rete per un ALB o la creazione di unAWS Lambdafunzione.

I piani dati sono la funzione principale di tali risorse, ad esempio l'esecuzione di un'istanza EC2 o la raccolta di elementi da una tabella Amazon DynamoDB o l'inserimento di elementi in una tabella Amazon DynamoDB. Per una discussione più dettagliata dei piani di controllo e dei piani dati, fare riferimento aStabilità statica tramite zone di disponibilitàeAWSLimiti di isolamento dei guasti.

Ai fini di questo documento, si consideri che i piani di controllo tendono ad avere più parti mobili e dipendenze rispetto ai piani dati. Ciò rende statisticamente più probabile che il piano di controllo venga compromesso rispetto al piano dati. Ciò è particolarmente importante per i servizi che forniscono AZI, come Amazon EC2 ed EBS, poiché alcuni di questi servizi dispongono di piani di controllo che sono anche indipendenti dal punto di vista zonale e possono essere influenzati durante un evento Single-AZ.

Sebbene le azioni del piano di controllo possano essere utilizzate per eseguire l'evacuazione AZ, sulla base delle informazioni precedenti, potrebbero avere una probabilità di successo inferiore, specialmente durante un evento di guasto. Per aumentare la probabilità di mitigare con successo l'impatto, è possibile utilizzare due modelli diversi. Il primo modello si basa solo sulle azioni sul piano dati per mitigare inizialmente l'impatto impedendo che il lavoro venga indirizzato o interrompendo il lavoro nella zona di disponibilità interessata. Quindi, è possibile tentare di aggiornare la configurazione delle risorse con azioni sul piano di controllo sia per impedire che la capacità venga fornita nella zona di disponibilità interessata sia per interrompere la comunicazione tra le zone di disponibilità con quella zona di disponibilità.

I modelli di ripristino discussi in questa sezione sonograndi bottoni rossi. Sono i meccanismi che usi per agire su larga scala, rapidamente, come tirare unE un cavo su una catena di montaggio. Presumono che i carichi di lavoro abbiano già provato strategie comeriprova con backoff esponenziale con jitternel loro codice per superare gli errori transitori. Ciò significa che quando viene rilevato un impatto isolato della zona di disponibilità, i suoi effetti sulla disponibilità o sulla latenza sono sufficientemente gravi da richiedere l'evacuazione della zona di disponibilità per mitigarlo efficacemente.