Plans de contrôle et plans de données - Modèles de résilience multi-AZ avancés

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Plans de contrôle et plans de données

Avant d'aborder les modèles réels que vous pouvez utiliser pour effectuer une évacuation de la zone de disponibilité, nous devons aborder les concepts de plans de contrôle et de plans de données.AWSfait la distinction entre les plans de contrôle et les plans de données dans nos services. Les plans de contrôle sont les mécanismes qui permettent d'apporter des modifications à un système (ajout de ressources, suppression de ressources, modification de ressources) et de propagation de ces modifications là où elles doivent être appliquées, par exemple en mettant à jour la configuration réseau d'un ALB ou en créant unAWS Lambdafonction.

Les plans de données constituent la fonction principale de ces ressources, par exemple l'instance EC2 en cours d'exécution ou l'obtention ou l'ajout d'éléments dans une table Amazon DynamoDB. Pour une présentation plus détaillée des plans de contrôle et des plans de données, reportez-vous àStabilité statique à l'aide des zones de disponibilitéetAWSLimites d'isolation des pannes.

Aux fins du présent document, considérez que les plans de contrôle ont tendance à comporter davantage de pièces mobiles et de dépendances que les plans de données. Cela rend statistiquement plus probable que le plan de contrôle soit altéré par rapport au plan de données. Cela est particulièrement pertinent pour les services qui fournissent l'AZI, tels qu'Amazon EC2 et EBS, car certains de ces services disposent de plans de contrôle qui sont également indépendants de la zone et peuvent être affectés lors d'un événement impliquant une seule AZ.

Bien que les actions du plan de contrôle puissent être utilisées pour effectuer une évacuation de la zone de repos, selon les informations précédentes, elles peuvent avoir une probabilité de succès plus faible, en particulier en cas de défaillance. Pour augmenter la probabilité de réussir à atténuer l'impact, vous pouvez utiliser deux modèles différents. Le premier modèle repose uniquement sur les actions du plan de données pour initialement atténuer l'impact en empêchant le routage du travail vers la zone de disponibilité affectée ou en interrompant son exécution dans la zone de disponibilité affectée. Ensuite, le second modèle peut être tenté pour mettre à jour la configuration des ressources à l'aide d'actions du plan de contrôle visant à la fois à empêcher le provisionnement de la capacité dans la zone de disponibilité affectée et à arrêter la communication entre la zone de disponibilité et cette zone de disponibilité.

Les modèles de restauration présentés dans cette section sontgros boutons rouges. Ce sont les mécanismes que vous utilisez pour prendre des mesures à grande échelle, rapidement, comme si vous tiriez unCordon Andon sur une chaîne de montage. Ils supposent que les charges de travail ont déjà essayé des stratégies telles queréessayer avec recul exponentiel avec giguedans leur code pour surmonter les erreurs transitoires. Cela signifie que lorsqu'un impact isolé sur une zone de disponibilité est détecté, ses effets sur la disponibilité ou la latence sont suffisamment graves pour nécessiter l'évacuation de la zone de disponibilité afin de les atténuer efficacement.