OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
La capacité à gérer efficacement les événements, les incidents et les problèmes est essentielle pour préserver l’intégrité et les performances de la charge de travail. Il est essentiel de reconnaître et de comprendre les différences entre ces éléments pour développer une stratégie de réponse et de résolution efficace. La mise en place et le suivi d’un processus bien défini pour chaque aspect aident votre équipe à relever rapidement et efficacement tous les défis opérationnels qui se présentent.
Résultat souhaité : Votre organisation gère efficacement les événements opérationnels, les incidents et les problèmes grâce à des processus bien documentés et stockés de manière centralisée. Ces processus sont constamment mis à jour pour refléter les changements, rationaliser la gestion et préserver une fiabilité de service et des performances de charge de travail élevées.
Anti-modèles courants :
-
Vous êtes réactif et non proactif face aux événements.
-
Des approches incohérentes sont adoptées à l’égard de différents types d’événements ou d’incidents.
-
Votre organisation n’analyse pas les incidents et n’en tire pas les leçons nécessaires pour éviter qu’ils se reproduisent à l’avenir.
Avantages liés au respect de cette bonne pratique :
-
Processus de réponse rationalisés et standardisés.
-
Réduction de l’impact des incidents sur les services et les clients.
-
Résolution accélérée des problèmes.
-
Amélioration continue des processus opérationnels.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : Élevé
Directives d’implémentation
L’implémentation de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus.
Comprendre les événements, les incidents et les problèmes
-
Événements : un événement est une observation d’une action, d’une occurrence ou d’une modification d’état. Les événements peuvent être planifiés ou imprévus et peuvent avoir une origine interne ou externe à la charge de travail.
-
Incidents : les incidents sont des événements qui nécessitent une réponse. Il peut notamment s’agir d’interruptions imprévues ou de dégradations de la qualité du service. Les incidents sont des perturbations qui nécessitent une attention immédiate pour rétablir le fonctionnement normal de la charge de travail.
-
Problèmes : les problèmes sont les causes sous-jacentes d’un ou de plusieurs incidents. L’identification et la résolution des problèmes impliquent d’étudier plus en profondeur les incidents afin d’éviter qu’ils se reproduisent.
Étapes d’implémentation
Événements
-
Surveillez les événements :
-
Mettez en œuvre l’observabilité et utilisez l’observabilité de la charge de travail.
-
Les actions de surveillance entreprises par un utilisateur, un rôle ou un service AWS sont enregistrées sous forme d’événements dans AWS CloudTrail
. -
Répondez aux changements opérationnels de vos applications en temps réel avec Amazon EventBridge
. -
Évaluez, surveillez et enregistrez en permanence les modifications de configuration des ressources avec AWS Config
.
-
-
Créez des processus :
-
Élaborez un processus pour évaluer quels événements sont importants et nécessitent une surveillance. Cela implique de définir des seuils et des paramètres pour les activités normales et anormales.
-
Déterminez les critères permettant de transformer un événement en incident. Cette évaluation peut être basée sur la gravité, l’impact sur les utilisateurs ou un écart par rapport au comportement attendu.
-
Passez régulièrement en revue les processus de surveillance et de réponse aux événements. Cela inclut l’analyse des incidents passés, l’ajustement des seuils et le perfectionnement des mécanismes d’alerte.
-
Incidents
-
Répondez aux incidents :
-
Utilisez les informations issues des outils d’observabilité pour identifier rapidement les incidents et y répondre.
-
Implémentez des Centres d’opérations AWS Systems Manager
pour regrouper, organiser et hiérarchiser les éléments opérationnels et les incidents. -
Utilisez des services tels qu’ Amazon CloudWatch
et AWS X-Ray pour une analyse et un dépannage plus approfondis. -
Envisagez d’utiliser AWS Managed Services (AMS)
pour une gestion améliorée des incidents, en tirant parti de ses capacités proactives, préventives et de détection. AMS étend le support opérationnel avec des services tels que la surveillance, la détection et la réponse aux incidents, ainsi que la gestion de la sécurité. -
Les clients bénéficiant d’un plan de support Business peuvent utiliser le Service de traitement des incidents AWS
, qui assure une surveillance proactive continue et une gestion des incidents pour les charges de travail de production.
-
-
Créez un processus de gestion des incidents :
-
Établissez un processus structuré de gestion des incidents, comprenant des rôles clairs, des protocoles de communication et des étapes de résolution.
-
Intégrez la gestion des incidents à des outils tels qu’ AWS Chatbot
pour une réponse et une coordination efficaces. -
Classez les incidents par gravité, avec des plans de réponse aux incidents prédéfinis pour chaque catégorie.
-
-
Apprenez et améliorez vos processus :
-
Réalisez une analyse post-incident pour comprendre les causes profondes et l’efficacité de la résolution.
-
Mettez à jour et améliorez en continu les plans de réponse en fonction des examens et de l’évolution des pratiques.
-
Documentez et partagez les leçons apprises entre les équipes afin d’améliorer la résilience opérationnelle.
-
Les clients ayant un plan de support Business peuvent demander l’ atelier Gestion des incidents
auprès de leur gestionnaire de compte technique. Cet atelier guidé teste votre plan de réponse aux incidents existant et vous aide à identifier les domaines à améliorer.
-
Problèmes
-
Identifiez les problèmes :
-
Utilisez les données relatives aux incidents précédents pour identifier des modèles récurrents susceptibles d’indiquer des problèmes systémiques plus profonds.
-
Tirez parti d’outils comme AWS CloudTrail
et Amazon CloudWatch pour analyser les tendances et découvrir les problèmes sous-jacents. -
Mobilisez des équipes interfonctionnelles, y compris les services des opérations et du développement, ainsi que les unités commerciales, afin d’obtenir des points de vue diversifiés sur les causes profondes.
-
-
Créez un processus de gestion des problèmes :
-
Développez un processus structuré pour la gestion des problèmes, en mettant l’accent sur des solutions à long terme plutôt que sur des correctifs rapides.
-
Intégrez des techniques d’analyse des causes profondes (RCA) pour étudier et comprendre les causes sous-jacentes des incidents.
-
Mettez à jour les politiques, les procédures et l’infrastructure opérationnelles en fonction des résultats pour éviter que les incidents se reproduisent.
-
-
Continuez à améliorer vos processus :
-
Favorisez une culture d’apprentissage et d’amélioration continus, en incitant les équipes à identifier et à résoudre les problèmes potentiels de manière proactive.
-
Passez régulièrement en revue et révisez les processus et les outils de gestion des problèmes afin de les aligner sur l’évolution des environnements commerciaux et technologiques.
-
Partagez des informations et des bonnes pratiques au sein de l’organisation afin de créer un environnement opérationnel plus résilient et plus efficace.
-
-
Impliquez AWS Support :
-
Utilisez les ressources d’AWS Support, telles qu’ AWS Trusted Advisor
, pour obtenir des conseils proactifs et des recommandations en matière d’optimisation. -
Les clients bénéficiant d’un plan de support Business peuvent accéder à des programmes spécialisés tels qu’ AWS Countdown
pour obtenir de l’aide lors d’événements critiques. -
-
Niveau d’effort du plan d’implémentation : Moyen
Ressources
Bonnes pratiques associées :
Documents connexes :
Vidéos connexes :
Exemples connexes :
Services associés :