PERF05-BP05 Utiliser l'automatisation pour résoudre de manière proactive les problèmes liés aux performances - AWS Well-Architected Framework

PERF05-BP05 Utiliser l'automatisation pour résoudre de manière proactive les problèmes liés aux performances

Utilisez les KPI en combinaison avec des systèmes de surveillance et d'alarme pour traiter de manière proactive les problèmes liés aux performances.

Anti-modèles courants :

  • Vous autorisez uniquement le personnel des opérations à apporter des modifications opérationnelles à la charge de travail.

  • Vous confiez toutes les activités de filtre des alarmes à l'équipe des opérations sans correction proactive.

Avantages liés au respect de cette bonne pratique : La correction proactive des actions d'alarme permet au personnel d'assistance de se concentrer sur les éléments qui ne sont pas exploitables automatiquement. Cela permet au personnel des opérations de gérer toutes les alarmes sans être submergé et de se concentrer uniquement sur les alarmes critiques.

Niveau de risque exposé si cette bonne pratique n'est pas respectée : Faible

Directives d'implémentation

Utilisez des alarmes pour déclencher des actions automatisées afin de corriger les problèmes dans la mesure du possible. Faites remonter l'alarme aux personnes qui peuvent répondre si une réponse automatique n'est pas possible. Par exemple, vous pourriez disposer d'un système capable de prédire les valeurs attendues de KPI et qui déclenche une alarme lorsqu'elles dépassent certains seuils. Vous pouvez aussi disposer d'un outil capable d'arrêter ou de restaurer automatiquement des déploiements si les valeurs des KPI dépassent celles attendues.

Mettez en place des processus qui rendent visibles les performances pendant que votre charge de travail est en cours d'exécution. Créez des tableaux de bord de surveillance et établissez des normes de référence pour les attentes en matière de performances pour déterminer si les performances de la charge de travail sont optimales.

Étapes d'implémentation

  • Identifiez et comprenez le problème lié aux performances qui peut être résolu automatiquement. Utilisez les solutions de surveillance d'AWS telles que Amazon CloudWatch ou AWS X-Ray pour vous aider à mieux comprendre la cause profonde du problème.

  • Créez un plan et un processus de résolution étape par étape qui peuvent être utilisés pour résoudre automatiquement le problème.

  • Configurez le déclencheur pour lancer automatiquement le processus de résolution. Par exemple, vous pouvez définir un déclencheur pour redémarrer automatiquement une instance lorsqu'elle atteint un certain seuil d'utilisation de l'UC.

  • Utilisez les services et technologies AWS pour automatiser le processus de résolution. Par exemple, AWS Systems Manager Automation fournit une solution sécurisée et évolutive d'automatisation du processus de résolution.

  • Testez le processus de résolution automatisé dans un environnement de pré-production.

  • Après les tests, mettez en œuvre le processus de résolution dans l'environnement de production et effectuez une surveillance continue pour identifier les domaines à améliorer.

Ressources

Documents connexes :

Vidéos connexes :

Exemples connexes :