Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
REL05-BP07 Mettre en œuvre des leviers de secours
Les leviers d’urgence sont des processus rapides qui peuvent réduire l’impact sur la disponibilité de votre charge de travail.
Les leviers d’urgence fonctionnent en désactivant, en limitant ou en modifiant le comportement des composants ou des dépendances à l’aide de mécanismes connus et testés. Ils permettent d’atténuer les perturbations de la charge de travail causées par l’épuisement des ressources dû à une augmentation inattendue de la demande et de réduire l’impact des défaillances des composants non stratégiques de votre charge de travail.
Résultat souhaité : en mettant en œuvre des leviers d’urgence, vous pouvez établir des processus dont le fonctionnement a été vérifié pour maintenir la disponibilité des composants essentiels de votre charge de travail. La charge de travail devrait se dégrader de manière appropriée et continuer à remplir ses fonctions stratégiques durant l’activation d’un levier d’urgence. Pour plus de détails sur la dégradation progressive, voir REL05-BP01 Implémenter la dégradation progressive pour transformer les dépendances strictes applicables en dépendances souples.
Anti-modèles courants :
-
La défaillance des dépendances non stratégiques a un impact sur la disponibilité de votre charge de travail principale.
-
Le comportement des composants stratégiques n’est pas testé ou vérifié lors d’une défaillance d’un composant non stratégique.
-
Aucun critère clair et déterministe n’a été défini pour l’activation ou la désactivation d’un levier d’urgence.
Avantages du respect de cette bonne pratique : la mise en œuvre de leviers d’urgence peut améliorer la disponibilité des composants critiques de votre charge de travail en fournissant à vos résolveurs des processus établis pour répondre aux pics de demande inattendus ou aux défaillances liées à des dépendances non critiques.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen
Directives d’implémentation
-
Identifier les composants stratégiques de votre charge de travail.
-
Concevoir et construire les composants stratégiques de votre charge de travail de manière à ce qu’ils résistent aux défaillances des composants non stratégiques.
-
Effectuer des tests pour valider le comportement de vos composants stratégiques en cas de défaillance des composants non stratégiques.
-
Définir et surveiller des métriques ou des déclencheurs pertinents pour lancer des procédures de levier d’urgence.
-
Définir les procédures (manuelles ou automatisées) qui comprennent le levier d’urgence.
Étapes d’implémentation
-
Identifier les composants stratégiques de votre charge de travail.
-
Chaque composant technique de votre charge de travail doit être associé à la fonction commerciale correspondante et classé comme stratégique ou non stratégique. Pour des exemples de fonctionnalités critiques et non critiques d’Amazon, consultez Any Day Can Be Prime Day: How Amazon.com Search Uses Chaos Engineering to Handle Over 84K Requests Per Second
. -
Il s’agit d’une décision à la fois technique et commerciale, qui varie en fonction de l’organisation et de la charge de travail.
-
-
Concevoir et construire les composants stratégiques de votre charge de travail de manière à ce qu’ils résistent aux défaillances des composants non stratégiques.
-
Lors de l’analyse des dépendances, tenez compte de tous les modes de défaillance potentiels et vérifiez que vos mécanismes de levier d’urgence fournissent les fonctionnalités stratégiques aux composants en aval.
-
-
Effectuer des tests pour valider le comportement de vos composants stratégiques pendant l’activation de vos leviers d’urgence.
-
Éviter les comportements bimodaux. Pour plus de détails, voir REL11-BP05 Utiliser la stabilité statique pour empêcher le comportement bimodal.
-
-
Définir et surveiller des métriques pertinentes pour lancer des procédures de levier d’urgence.
-
La recherche des bonnes métriques à surveiller dépend de votre charge de travail. Parmi les métriques, citons la latence ou le nombre de demandes infructueuses à une dépendance.
-
-
Définir les procédures (manuelles ou automatisées) qui comprennent le levier d’urgence.
-
Cela peut inclure des mécanismes tels que le délestage
, les demandes de limitation ou la mise en œuvre d’une dégradation appropriée.
-
Ressources
Bonnes pratiques associées :
Documents connexes :
Vidéos connexes :