OPS10-BP07 Automatiser les réponses aux événements - AWS Well-Architected Framework

OPS10-BP07 Automatiser les réponses aux événements

Automatisez les réponses aux événements pour réduire les erreurs causées par les processus manuels, et pour garantir des réponses rapides et cohérentes.

Il existe plusieurs façons d'automatiser les actions de runbooks et de playbooks sur AWS. Pour répondre à un événement à partir d'un changement d'état dans vos ressources AWS, ou à partir de vos propres événements personnalisés, vous devez créer des règles CloudWatch Events afin de déclencher des réponses via les cibles CloudWatch (par exemple, les fonctionsLambda, les rubriques Amazon Simple Notification Service (Amazon SNS), les tâches Amazon ECS et AWS Systems Manager Automation).

Pour répondre à une métrique qui dépasse un seuil pour une ressource (par exemple, le temps d'attente), vous devez créer des alarmes CloudWatch pour effectuer une ou plusieurs actions à l'aide des actions Amazon EC2, des actions Auto Scaling, ou pour envoyer une notification à une rubrique Amazon SNS. Si vous avez besoin d'effectuer des actions personnalisées en réponse à une alarme, appelez Lambda par le biais d'une notification Amazon SNS. Utilisez Amazon SNS pour publier des notifications d'événements et des messages de remontée pour que les personnes restent informées.

AWS prend également en charge les systèmes tiers via les API et les kits SDK de service AWS. Il existe divers outils fournis par les partenaires AWS et des tiers qui permettent la surveillance, les notifications et les réponses. Ces outils incluent notamment New Relic, Splunk, Loggly, SumoLogic et Datadog.

Vous devriez maintenir à disposition des procédures manuelles critiques pouvant être utilisées lorsque les procédures automatisées échouent.

Anti-modèles courants :

  • Un développeur vérifie son code. Cet événement aurait pu être utilisé pour démarrer une génération, puis effectuer des tests, mais rien ne se passe.

  • Votre application consigne une erreur spécifique avant de cesser de fonctionner. La procédure de redémarrage de l'application est bien comprise et peut être scriptée. Vous pouvez utiliser l'événement de journal pour appeler un script et redémarrer l'application. Au lieu de cela, lorsque l'erreur se produit à 3 h le dimanche matin, vous êtes réveillé en tant que ressource de garde chargée de résoudre le système.

Avantages liés au respect de cette bonne pratique : En utilisant des réponses automatisées aux événements, vous réduisez le temps de réponse et limitez l'introduction d'erreurs provenant d'activités manuelles.

Niveau de risque exposé si cette bonne pratique n'est pas respectée : Faible

Directives d'implémentation

Ressources

Documents connexes :

Vidéos connexes :

Exemples connexes :