OPS10-BP04 Definir caminhos de escalação
Estabeleça caminhos claros de escalação em seus protocolos de resposta a incidentes para facilitar ações rápidas e eficazes. Isso inclui especificar solicitações de escalação, detalhar o processo de escalação e pré-aprovar ações para agilizar a tomada de decisões e reduzir o tempo médio de resolução (MTTR).
Resultado desejado: um processo estruturado e eficiente que encaminha os incidentes para a equipe apropriada, minimizando os tempos de resposta e o impacto.
Práticas comuns que devem ser evitadas:
-
A falta de clareza sobre os procedimentos de recuperação leva a respostas improvisadas durante incidentes críticos.
-
A ausência de permissões e propriedade definidas ocasiona atrasos quando uma ação urgente é necessária.
-
As partes interessadas e os clientes não são informados de acordo com as expectativas.
-
Decisões importantes estão atrasadas.
Benefícios de implementar esta prática recomendada:
-
Resposta simplificada a incidentes por meio de procedimentos de escalação predefinidos.
-
Tempo de inatividade reduzido com ações pré-aprovadas e propriedade clara.
-
Melhor alocação de recursos e ajustes no nível de suporte de acordo com a gravidade do incidente.
-
Comunicação aprimorada com as partes interessadas e os clientes.
Nível de risco exposto se esta prática recomendada não for estabelecida: Médio
Orientação para implementação
Caminhos de escalação definidos adequadamente são cruciais para uma resposta rápida a incidentes. O AWS Systems Manager Incident Manager oferece suporte à configuração de planos de escalação estruturada e agendamentos de plantão, que alertam a equipe certa para que ela esteja pronta para agir quando ocorrerem incidentes.
Etapas de implementação
-
Configure solicitações de escalação: configure os alarmes do CloudWatch para criar um incidente no AWS Systems Manager Incident Manager.
-
Configure escalas de plantão: crie escalas de plantão no Incident Manager que se alinhem aos seus caminhos de escalação. Equipe o pessoal de plantão com as permissões e ferramentas necessárias para agir rapidamente.
-
Detalhe os procedimentos detalhados de escalação:
-
Determine as condições específicas sob as quais um incidente deve ser escalado.
-
Crie planos de escalação no Incident Manager.
-
Os canais de escalação devem consistir em um contato ou em uma escala de plantão.
-
Defina as funções e responsabilidades da equipe em cada nível de escalação.
-
-
Aprove previamente as ações de mitigação: colabore com os tomadores de decisão para pré-aprovar ações para cenários previstos. Use runbooks do Systems Manager Automation integrados ao Incident Manager para acelerar a resolução de incidentes.
-
Especifique a propriedade: identifique claramente os proprietários internos de cada etapa do caminho de escalação.
-
Detalhe as escalações de terceiros:
-
Documente os acordos de serviço (SLAs) de terceiros e alinhe-os às metas internas.
-
Defina protocolos claros para a comunicação com o fornecedor durante incidentes.
-
Integre os contatos do fornecedor às ferramentas de gerenciamento de incidentes para acesso direto.
-
Realize exercícios regulares que incluam cenários de resposta de terceiros.
-
Mantenha as informações de escalação de fornecedores bem documentadas e facilmente acessíveis.
-
-
Treine e ensaie os planos de escalação: treine sua equipe no processo de escalação e realize exercícios regulares de resposta a incidentes ou encenações. Os clientes Enterprise Support podem solicitar um workshop sobre gerenciamento de incidentes
. -
Continue a aprimorar: analise com frequência a eficácia de seus caminhos de escalação. Atualize seus processos com base nas lições aprendidas com os post-mortems de incidentes e com o feedback contínuo.
Nível de esforço do plano de implementação: Moderado
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados: