Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Gestion des événements
Vous devez anticiper les événements opérationnels, qu’ils soient planifiés (par exemple, les promotions de vente, les déploiements et les tests de défaillance) ou non planifiés (par exemple, les hausses d’utilisation et les défaillances de composants). Vous devez utiliser vos runbooks et playbooks existants pour obtenir des résultats cohérents lorsque vous répondez aux alertes. Les alertes définies doivent être détenues par un rôle ou une équipe qui est responsable de la réponse et des acheminements hiérarchiques. Vous devriez également connaître l’impact commercial des composants de votre système et utiliser ces connaissances pour cibler les efforts lorsque cela est nécessaire. Vous devez effectuer une analyse des causes premières (RCA) après les événements, puis empêcher que des défaillances ne se reproduisent ou documenter les solutions de contournement.
AWS simplifie votre réponse aux événements en fournissant des outils prenant en charge tous les aspects de votre charge de travail et de vos opérations sous forme de code. Ces outils vous permettent de créer des scripts de réponses aux événements d’opérations et de déclencher leur exécution en réponse à des données de surveillance.
Dans AWS, vous pouvez améliorer le temps de restauration en remplaçant les composants défaillants par des versions dont le fonctionnement est connu, plutôt que d'essayer de les réparer. Vous pouvez ensuite effectuer une analyse de cette ressource défaillante hors bande.
Bonnes pratiques
- OPS10-BP01 Utiliser un processus de gestion des événements, des incidents et des problèmes
- OPS10-BP02 Disposer d'un processus par alerte
- OPS10-BP03 Prioriser les événements opérationnels en fonction de leur impact commercial
- OPS10-BP04 Définir les chemins d'escalade
- OPS10-BP05 Définir un plan de communication client pour les événements ayant un impact sur le service
- OPS10-BP06 Communiquer le statut par le biais de tableaux de bord
- OPS10-BP07 Automatiser les réponses aux événements