Réaliser une analyse post-incident dans le Gestionnaire d'Incident Manager Analyse post-incident - Incident Manager

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Réaliser une analyse post-incident dans le Gestionnaire d'Incident Manager Analyse post-incident

L'analyse post-incident vous guide dans l'identification des améliorations à apporter à votre réponse aux incidents, notamment le temps de détection et d'atténuation associés aux incidents. Une analyse peut également vous aider à comprendre la cause première des incidents. Le gestionnaire d'incidents crée des mesures recommandées pour améliorer votre réponse aux incidents.

Les avantages d'une analyse post-incident
  • Améliorer la réponse aux incidents

  • Comprenez la cause première du problème

  • Traitez les causes profondes grâce à des actions réalisables

  • Analyser l'impact des incidents

  • Capturez et partagez les enseignements au sein d'une organisation

Les raisons pour lesquelles il ne faut pas utiliser une analyse

Une analyse est irréprochable et ne cite pas les personnes par leur nom.

« Peu importe ce que nous découvrons, nous comprenons et croyons sincèrement que chacun a fait de son mieux, compte tenu de ce qu'il savait à l'époque, de ses compétences et aptitudes, des ressources disponibles et de la situation actuelle. » - Norm Kerth, Rétrospectives de projets : un manuel pour l'évaluation en équipe

Détails de l'analyse

La page des détails de l'analyse vous guide dans la collecte d'informations, l'évaluation des améliorations et la création de mesures à prendre. La page des détails de l'analyse est similaire aux détails de l'incident, avec certaines différences importantes, telles que des statistiques historiques, un calendrier modifiable et des questions visant à améliorer les incidents future.

Présentation

La vue d'ensemble est un résumé de l'incident. Ce résumé inclut le contexte, ce qui s'est produit, pourquoi cela s'est produit, comment il a été atténué, la durée et les mesures clés à prendre pour empêcher que l'incident ne se reproduise. La vue d'ensemble est de haut niveau. Vous découvrirez plus de détails dans l'onglet Questions de l'analyse.

Métriques

Utilisez l'onglet Mesures pour visualiser les mesures clés de votre application pendant la durée de l'incident. Vous pouvez ajouter ici des graphiques métriques qui présentent une ou plusieurs mesures dans le même graphique. Les mesures utilisées lors d'un incident sont automatiquement renseignées dans cet onglet. Nous vous recommandons d'ajouter une description, un titre et des annotations des principaux moments de l'incident.

Voici quelques points temporels clés que vous pouvez prendre en compte lors de l'analyse d'un graphique métrique :

  • Modification du déploiement

  • Modification de la configuration

  • Heure de début de l'incident

  • Heure de l'alarme

  • Heure de l'engagement

  • Heure de début de l'atténuation

  • Heure de résolution de l'incident

Limites
  • CloudWatch les alarmes et les expressions métriques ne sont pas importées à partir d'un incident.

  • Les mesures qui se trouvent dans une région non prise en charge par Incident Manager ne sont pas importées depuis l'incident.

  • Les métriques des comptes d'applications nécessitent une configurationCloudWatch-CrossAccountSharingRole préalable à la création de l'analyse. Pour plus d'informations sur le rôle, consultez la section CloudWatch Console Cross-Account Cross-Region dans le guide de CloudWatch l'utilisateur.

Chronologie

Décrivez les moments clés de la chronologie à mesure que vous approfondissez votre compréhension de l'incident. La chronologie des incidents est automatiquement renseignée sur cet onglet. Vous pouvez supprimer des points temporels qui ne sont pas pertinents pour l'analyse. Vous pouvez également ajouter et modifier des points temporels pour décrire plus précisément l'incident et son impact.

Utilisez l'onglet Chronologie pour répondre aux questions que vous trouverez dans l'onglet Questions concernant la réponse à l'incident.

Questions

Utilisez les questions du gestionnaire d'incidents pour améliorer le délai de résolution des incidents dans votre application et réduire le nombre d'incidents. Au fur et à mesure que vous répondez aux questions, mettez à jour les onglets Mesures et Chronologie pour plus de précision. Les questions portent sur les aspects clés de la réponse aux incidents :

  • Détection — Pourriez-vous réduire le délai de détection ? Existe-t-il des mises à jour des indicateurs et des alarmes qui permettraient de détecter l'incident plus rapidement ?

  • Diagnostic — Pouvez-vous réduire le délai de diagnostic ? Y a-t-il des mises à jour de vos plans d'intervention ou de vos plans d'escalade qui permettraient d'engager les bons intervenants plus rapidement ?

  • Atténuation : pouvez-vous réduire le délai d'atténuation ? Y a-t-il des étapes du manuel que vous pourriez ajouter ou améliorer ?

  • Prévention — Pouvez-vous empêcher que de future incidents ne se reproduisent ? Pour découvrir les causes profondes d'un incident, Amazon utilise l'approche des 5 pourquoi dans le cadre de l'investigation des problèmes.

Actions

Incident Manager crée des mesures recommandées que vous pouvez consulter au fur et à mesure que vous répondez aux questions. Vous pouvez choisir d'accepter et de terminer ces actions à partir de cet onglet ou vous pouvez les ignorer. Vous pouvez consulter les actions rejetées en sélectionnant Actions rejetées. Les éléments d'action sont un type OpsItem d'élément lié à l'analyse et à l'incident dans OpsCenter.

Liste de contrôle

Avant de terminer une analyse, utilisez la liste de contrôle pour passer en revue les mesures que doit prendre un intervenant. Lorsque les intervenants exécutent les actions de la liste de contrôle, l'icône située à côté de l'action passe d'une ellipse à une coche, indiquant que l'action est terminée. Si vous n'avez pas terminé les éléments de la liste de contrôle, Incident Manager affiche un message pour confirmer que le répondeur souhaite clore l'analyse sans la terminer.

Modèles d'analyse

Un modèle d'analyse fournit un ensemble de questions qui permettent d'identifier en profondeur la cause première des incidents. Vous pouvez utiliser les réponses à ces questions pour améliorer les performances des applications et la réponse aux incidents.

AWSmodèle standard

Incident Manager fournit un modèle standard de questions basé sur les meilleures pratiques en matière de réponse auxAWS incidents et d'analyse des problèmes, intituléAWSIncidents-PostIncidentAnalysisTemplate.

Créer un modèle d'analyse

Nous vous encourageons à utiliser leAWSIncidents-PostIncidentAnalysisTemplate modèle par défaut et à ajouter des questions ou des sections supplémentaires adaptées à vos cas d'utilisation. Création de modèles d'analyse basés sur le modèle par défaut Utilisez ce modèle comme point de départ pour créer des modèles d'analyse dans votre compte de gestion. Vous pouvez ensuite dupliquer vos modèles d'analyse dans chaque région dans laquelle vous avez activé Incident Manager.

Créer un modèle d'analyse
  1. Appelez l'GetDocumentaction et utilisez sonName paramètre pour la téléchargerAWSIncidents-PostIncidentAnalysisTemplate. Pour de plus amples informations sur laGetDocument syntaxe, veuillez consulter le document Référence d'API Systems Manager.

  2. Le contenu de la réponse contient les éléments de base JSON pour l'analyse. Utilisez les éléments constitutifs des questions pour insérer des questions supplémentaires dans l'analyse. Nous vous recommandons d'ajouter des questions ou des sections dans laIncident questions section.

  3. Pour créer le nouveau modèle, utilisez l'CreateDocumentopération avec le JSON mis à jour à l'étape précédente. Vous devez inclure ce qui suit, où seAnalysis_Template_Name trouve le nom de votre modèle,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Créer une analyse

  1. Pour créer une analyse, choisissez Créer une analyse sur la page des détails de l'incident d'un incident clos.

  2. Choisissez le modèle d'analyse à partir duquel créer cette analyse et entrez un nom descriptif de l'analyse.

  3. Sélectionnez Create (Créer).

Vous pouvez générer une copie d'une analyse complète ou incomplète formatée pour l'impression. Vous pouvez également enregistrer cette copie au format PDF. Vous pouvez imprimer une seule analyse à la fois. L'impression Batch de plusieurs analyses n'est actuellement actuellement actuellement actuellement actuellement actuellement actuellement actuellement actuellement actuellement actuellement actuellement

Pour imprimer une analyse mise en forme
  1. Ouvrez la console Incident Manager.

  2. Choisissez l'onglet Analyse.

  3. Choisissez le titre de l'analyse que vous souhaitez imprimer.

  4. Dans le coin supérieur droit de la page de détails de l'analyse, choisissez Imprimer.

  5. Dans la boîte de dialogue Imprimer l'analyse des incidents, effacez les sections de l'analyse que vous ne souhaitez pas inclure dans la version imprimée. Par défaut, toutes les sections sont sélectionnées.

  6. Choisissez Imprimer pour ouvrir les commandes d'impression locales de votre appareil.

  7. Choisissez la destination ou le format d'impression. Vous pouvez choisir une imprimante locale ou réseau, ou vous pouvez enregistrer l'analyse au format PDF. Apportez les modifications souhaitées aux options d'impression restantes, puis choisissez Imprimer.

    Note

    Les contrôles d'impression locaux font référence à l'interface utilisateur fournie par votre navigateur Web et votre appareil.

    Les destinations d'impression sont celles configurées pour votre appareil et accessibles depuis celui-ci.