OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes - Pilier Excellence opérationnelle

OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes

Votre entreprise dispose de processus pour gérer les événements, les incidents et les problèmes. Événements se produisent dans votre charge de travail, mais ne nécessitent pas d'intervention. Les incidents sont des événements qui nécessitent une intervention. Les problèmes sont des événements récurrents qui nécessitent une intervention ou ne peuvent pas être résolus. Vous avez besoin de processus pour réduire l'impact de ces événements sur votre entreprise et répondre de manière adaptée.

Lorsque des incidents et des problèmes se produisent dans votre charge de travail, vous avez besoin de processus pour les gérer. Comment communiquer le statut de l'événement aux parties prenantes ? Qui supervise l'intervention ? Quels sont les outils à utiliser pour réduire l'impact de ces événements ? Voici des exemples de questions auxquelles vous devez répondre pour renforcer votre processus de réponse.

Les processus doivent être documentés dans un emplacement central et accessible à toute personne impliquée dans votre charge de travail. Si vous ne disposez pas d'un wiki central ou d'un magasin de documents, un référentiel de contrôle de version peut être utilisé. Vous devez garder ces plans à jour à mesure que vos processus évoluent.

Les problèmes sont de parfaits candidats à l'automatisation. Ces événements empiètent sur votre temps passé à innover. Commencez par créer un processus reproductible pour réduire l'impact du problème. Avec le temps, concentrez-vous sur l'automatisation de la réduction ou de la résolution du problème sous-jacent. Cela permet de libérer du temps pour vous consacrer à l'amélioration de votre charge de travail.

Résultat souhaité : Votre entreprise dispose d'un processus pour gérer les événements, les incidents et les problèmes. Ces processus sont documentés et stockés dans un emplacement central. Ils sont mis à jour à mesure que les processus évoluent.

Anti-modèles courants :

  • Un incident se produit pendant le week-end et l'ingénieur de garde ne sait pas quoi faire.

  • Un client vous envoie un e-mail pour vous informer que l'application ne fonctionne plus. Vous redémarrez le serveur pour résoudre le problème. Cela arrive fréquemment.

  • Un incident se produit et plusieurs équipes travaillent indépendamment pour essayer de le résoudre.

  • Des déploiements se produisent dans votre charge de travail sans être enregistrés.

Avantages liés au respect de cette bonne pratique :

  • Vous disposez d'une piste d'audit des événements dans votre charge de travail.

  • Votre temps de récupération après un incident diminue.

  • Les membres de l'équipe peuvent résoudre des incidents et des problèmes de manière cohérente.

  • L'effort est plus consolidé lorsqu'on enquête sur un incident.

Niveau de risque exposé si cette bonne pratique n'est pas respectée : Élevé

Directives d'implémentation

L'implémentation de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus.

Exemple client

Une partie du wiki interne d'AnyCompany Retail est consacrée au processus pour la gestion de l'événement, de l'incident et du problème. Tous les événements sont envoyés à Amazon EventBridge. Les problèmes sont identifiés en tant qu'OpsItems dans AWS Systems Manager OpsCenter et hiérarchisés pour être résolus, ce qui réduit la main d'œuvre indifférenciée. À mesure que les processus évoluent, ils sont mis à jour dans son wiki interne. L'entreprise utilise AWS Systems Manager Incident Manager pour gérer les incidents et coordonner les efforts de réduction de l'impact des événements.

Étapes d'implémentation

  1. Événements

    • Suivez les événements qui se produisent dans votre charge de travail, même si aucune intervention humaine n'est requise.

    • Collaborez avec les parties prenantes de la charge de travail pour développer une liste des événements devant être suivis. Certains exemples sont des déploiements terminés ou des correctifs réussis.

    • Vous pouvez utiliser des services comme Amazon EventBridge ou Amazon Simple Notification Service pour générer des événements personnalisés pour le suivi.

  2. Les incidents

    • Commencez par définir le plan de communication pour les incidents. Quelles parties prenantes doivent être informées ? Comment les tiendrez-vous informées ? Qui supervise les efforts de coordination ? Nous recommandons de mettre en place un canal de chat interne pour la communication et la coordination.

    • Définissez les chemins de remontée pour les équipes prenant en charge votre charge de travail, notamment si l'équipe n'a pas de système de rotation de garde. Selon votre niveau de prise en charge, vous pouvez également créer un ticket avec AWS Support.

    • Créez un playbook pour enquêter sur l'incident. Il doit inclure le plan de communication et les étapes détaillées de l'enquête. Incluez la vérification du AWS Health Dashboard dans votre enquête.

    • Documentez votre plan de réponse aux incidents. Communiquez le plan de gestion des incidents afin que les clients internes et externes comprennent les règles d'engagement et ce qu'on attend d'eux. Entraînez les membres de votre équipe à l'utiliser.

    • Les clients peuvent utiliser Incident Manager pour configurer et gérer leur plan de réponse aux incidents.

    • Les clients ayant un plan de support Business peuvent demander l' atelier Gestion des incidents auprès de leur gestionnaire de compte technique. Cet atelier guidé teste votre plan de réponse aux incidents existant et vous aide à identifier les domaines à améliorer.

  3. Problèmes

    • Les problèmes doivent être identifiés et suivis dans votre système ITSM.

    • Identifiez tous les problèmes connus et hiérarchisez-les par effort de résolution et impact sur la charge de travail.

      
                Matrice de priorité d'action pour hiérarchiser les problèmes.
    • Résolvez d'abord les problèmes ayant un impact élevé et un effort faible. Une fois ces problèmes résolus, passez à ceux ayant un impact faible et un effort faible.

    • Vous pouvez utiliser Systems Manager OpsCenter pour identifier ces problèmes, leur attacher des runbooks et les suivre.

Niveau d'effort du plan d'implémentation : moyen. Vous avez besoin d'un processus et d'outils pour implémenter cette bonne pratique. Documentez vos processus et rendez-les accessibles à toute personne associée à la charge de travail. Mettez-les à jour fréquemment. Vous disposez d'un processus pour gérer les problèmes et les réduire ou les résoudre.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :

Services associés :