OPS10-BP04 Définir les chemins d'escalade

Définissez des procédures de remontée claires dans vos protocoles de réponse aux incidents afin de faciliter une action rapide et efficace. Cela inclut la spécification des invites d'escalade, le détail du processus d'escalade et l'approbation préalable des actions pour accélérer la prise de décision et réduire le délai moyen de résolution (). MTTR

Résultat escompté : un processus structuré et efficace qui transmet les incidents au personnel approprié, minimisant ainsi les temps de réponse et l’impact.

Anti-modèles courants :

Le manque de clarté des procédures de récupération entraîne des interventions improvisées lors d’incidents critiques.
L’absence d’autorisations et de propriétaires définis entraîne des retards lorsqu’une action urgente est nécessaire.
Les parties prenantes et les clients ne sont pas informés conformément aux attentes.
Les décisions importantes sont reportées.

Avantages liés au respect de cette bonne pratique :

Réponse rationalisée aux incidents grâce à des procédures de remontée prédéfinies.
Réduction des temps d’arrêt grâce à des actions préapprouvées et à la définition claire d’un propriétaire.
Meilleure allocation des ressources et ajustements du niveau d’assistance en fonction de la gravité de l’incident.
Meilleure communication avec les parties prenantes et les clients.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

Des voies d'escalade correctement définies sont cruciales pour une réponse rapide aux incidents. AWS Systems Manager Incident Manager prend en charge la mise en place de plans d'escalade structurés et de calendriers d'astreinte, qui alertent le personnel approprié afin qu'il soit prêt à agir en cas d'incident.

Étapes d’implémentation

Configurer des invites d'escalade : configurez des CloudWatch alarmes pour créer un incident dans AWS Systems Manager Incident Manager.
Configurez des horaires d’astreinte : créez des horaires d’astreinte dans Incident Manager qui correspondent à vos trajectoires d’escalade. Dotez le personnel d’astreinte des autorisations et des outils nécessaires afin de lui permettre d’agir rapidement.
Détaillez les procédures de remontée :
- Déterminez les conditions spécifiques dans lesquelles un incident doit faire l’objet d’une remontée.
- Créez des plans d’escalade dans Incident Manager.
- Les canaux de remontée doivent inclure un contact ou un calendrier d’astreinte.
- Définissez les rôles et les responsabilités de l’équipe à chaque niveau de la remontée.
Approuver au préalable les mesures d’atténuation : collaborez avec les décisionnaires pour approuver au préalable les actions associées aux scénarios prévus. Utilisez les runbooks Systems Manager Automation intégrés à Incident Manager pour accélérer la résolution des incidents.
Préciser la propriété : identifiez clairement les propriétaires internes pour chaque étape de la procédure de remontée.
Détaillez les remontées par des tiers :
- Documentez les accords de niveau de service tiers (SLAs) et alignez-les sur les objectifs internes.
- Définissez des protocoles clairs pour la communication avec les fournisseurs lors d’incidents.
- Intégrez les contacts des fournisseurs dans les outils de gestion des incidents pour un accès direct.
- Effectuez régulièrement des exercices qui incluent des scénarios de réponse par des tiers.
- Documentez les informations relatives à la remontée fournisseurs et veillez à ce qu’elles soient facilement accessibles.
Former et répéter les plans d’escalade : formez votre équipe à la procédure de remontée et organisez régulièrement des exercices de réponse aux incidents ou des journées de jeu. Les clients du support aux entreprises peuvent demander l’atelier de gestion des incidents auprès de leur responsable de compte technique.
Améliorer sans cesse : vérifiez régulièrement l’efficacité de vos procédures de remontée. Mettez à jour vos procédures en fonction des leçons tirées des analyses post-mortem des incidents et des commentaires fournis en continu.

Niveau d’effort du plan d’implémentation : modéré

Ressources

Bonnes pratiques associées :

Documents connexes :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

OPS10-BP03 Prioriser les événements opérationnels en fonction de leur impact commercial

OPS10-BP05 Définissez un plan de communication avec les clients en cas d’interruption de service