OPS10-BP04 Definir caminhos de escalação - Framework Well-Architected da AWS

OPS10-BP04 Definir caminhos de escalação

Estabeleça caminhos claros de escalação em seus protocolos de resposta a incidentes para facilitar ações rápidas e eficazes. Isso inclui especificar solicitações de escalação, detalhar o processo de escalação e pré-aprovar ações para agilizar a tomada de decisões e reduzir o tempo médio de resolução (MTTR).

Resultado desejado: um processo estruturado e eficiente que encaminha os incidentes para a equipe apropriada, minimizando os tempos de resposta e o impacto.

Práticas comuns que devem ser evitadas:

  • A falta de clareza sobre os procedimentos de recuperação leva a respostas improvisadas durante incidentes críticos.

  • A ausência de permissões e propriedade definidas ocasiona atrasos quando uma ação urgente é necessária.

  • As partes interessadas e os clientes não são informados de acordo com as expectativas.

  • Decisões importantes estão atrasadas.

Benefícios de implementar esta prática recomendada:

  • Resposta simplificada a incidentes por meio de procedimentos de escalação predefinidos.

  • Tempo de inatividade reduzido com ações pré-aprovadas e propriedade clara.

  • Melhor alocação de recursos e ajustes no nível de suporte de acordo com a gravidade do incidente.

  • Comunicação aprimorada com as partes interessadas e os clientes.

Nível de risco exposto se esta prática recomendada não for estabelecida: Médio

Orientação para implementação

Caminhos de escalação definidos adequadamente são cruciais para uma resposta rápida a incidentes. O AWS Systems Manager Incident Manager oferece suporte à configuração de planos de escalação estruturada e agendamentos de plantão, que alertam a equipe certa para que ela esteja pronta para agir quando ocorrerem incidentes.

Etapas de implementação

  1. Configure solicitações de escalação: configure os alarmes do CloudWatch para criar um incidente no AWS Systems Manager Incident Manager.

  2. Configure escalas de plantão: crie escalas de plantão no Incident Manager que se alinhem aos seus caminhos de escalação. Equipe o pessoal de plantão com as permissões e ferramentas necessárias para agir rapidamente.

  3. Detalhe os procedimentos detalhados de escalação:

    • Determine as condições específicas sob as quais um incidente deve ser escalado.

    • Crie planos de escalação no Incident Manager.

    • Os canais de escalação devem consistir em um contato ou em uma escala de plantão.

    • Defina as funções e responsabilidades da equipe em cada nível de escalação.

  4. Aprove previamente as ações de mitigação: colabore com os tomadores de decisão para pré-aprovar ações para cenários previstos. Use runbooks do Systems Manager Automation integrados ao Incident Manager para acelerar a resolução de incidentes.

  5. Especifique a propriedade: identifique claramente os proprietários internos de cada etapa do caminho de escalação.

  6. Detalhe as escalações de terceiros:

    • Documente os acordos de serviço (SLAs) de terceiros e alinhe-os às metas internas.

    • Defina protocolos claros para a comunicação com o fornecedor durante incidentes.

    • Integre os contatos do fornecedor às ferramentas de gerenciamento de incidentes para acesso direto.

    • Realize exercícios regulares que incluam cenários de resposta de terceiros.

    • Mantenha as informações de escalação de fornecedores bem documentadas e facilmente acessíveis.

  7. Treine e ensaie os planos de escalação: treine sua equipe no processo de escalação e realize exercícios regulares de resposta a incidentes ou encenações. Os clientes Enterprise Support podem solicitar um workshop sobre gerenciamento de incidentes.

  8. Continue a aprimorar: analise com frequência a eficácia de seus caminhos de escalação. Atualize seus processos com base nas lições aprendidas com os post-mortems de incidentes e com o feedback contínuo.

Nível de esforço do plano de implementação: Moderado

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados: