Gestion des événements - Pilier Excellence opérationnelle

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Gestion des événements

Vous devez anticiper les événements opérationnels, qu’ils soient planifiés (par exemple, les promotions de vente, les déploiements et les tests de défaillance) ou non planifiés (par exemple, les hausses d’utilisation et les défaillances de composants). Vous devez utiliser vos runbooks et playbooks existants pour obtenir des résultats cohérents lorsque vous répondez aux alertes. Les alertes définies doivent être détenues par un rôle ou une équipe qui est responsable de la réponse et des acheminements hiérarchiques. Vous devriez également connaître l’impact commercial des composants de votre système et utiliser ces connaissances pour cibler les efforts lorsque cela est nécessaire. Vous devez effectuer une analyse des causes premières (RCA) après les événements, puis empêcher que des défaillances ne se reproduisent ou documenter les solutions de contournement.

AWS simplifie votre réponse aux événements en fournissant des outils prenant en charge tous les aspects de votre charge de travail et de vos opérations sous forme de code. Ces outils vous permettent de créer des scripts de réponses aux événements d’opérations et de déclencher leur exécution en réponse à des données de surveillance.

Dans AWS, vous pouvez améliorer le temps de restauration en remplaçant les composants défaillants par des versions dont le fonctionnement est connu, plutôt que d'essayer de les réparer. Vous pouvez ensuite effectuer une analyse de cette ressource défaillante hors bande.