OPS10-BP04 Definir rutas de escalado - AWS Well-Architected Framework

OPS10-BP04 Definir rutas de escalado

Establezca rutas de escalado claras dentro de sus protocolos de respuesta a incidentes para facilitar una acción oportuna y eficaz. Esto incluye especificar las indicaciones para el escalado, detallar el proceso de escalado y aprobar previamente las acciones para acelerar la toma de decisiones y reducir el tiempo medio de resolución (MTTR).

Resultado deseado: Un proceso estructurado y eficiente que eleva los incidentes al personal apropiado, lo que reduce los tiempos de respuesta y el impacto.

Patrones comunes de uso no recomendados:

  • La falta de claridad en los procedimientos de recuperación conduce a respuestas improvisadas durante los incidentes críticos.

  • La ausencia de permisos y propiedad definidos provoca retrasos cuando se necesita una acción urgente.

  • Las partes interesadas y los clientes no reciben información de acuerdo con las expectativas.

  • Las decisiones importantes se retrasan.

Beneficios de establecer esta práctica recomendada:

  • Respuesta simplificada a los incidentes mediante procedimientos de escalado predefinidos.

  • Reducción del tiempo de inactividad con acciones preaprobadas y una propiedad clara.

  • Mejora de la asignación de recursos y los ajustes del nivel de soporte según la gravedad del incidente.

  • Mejora de la comunicación con las partes interesadas y los clientes.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Medio

Guía para la implementación

Las rutas de escalado bien definidas son cruciales para una respuesta rápida a los incidentes. Administrador de incidentes de AWS Systems Manager permite establecer planes de escalado estructurados y horarios de guardia, que alertan al personal adecuado para que esté preparado para actuar cuando se produzcan incidentes.

Pasos para la implementación

  1. Configure las indicaciones de escalado: Configure las alarmas de CloudWatch para crear un incidente en Administrador de incidentes de AWS Systems Manager.

  2. Configure los horarios de guardia: Cree horarios de guardia en Incident Manager que se alineen con sus rutas de escalado. Proporcione al personal de guardia los permisos y las herramientas necesarios para actuar con rapidez.

  3. Procedimientos de escalado detallados:

    • Determine las condiciones específicas en las que se debe escalar un incidente.

    • Cree planes de escalado en Incident Manager.

    • Los canales de escalado deben consistir en un contacto o un horario de guardia.

    • Defina las funciones y responsabilidades del equipo en cada nivel de escalado.

  4. Apruebe previamente las acciones de mitigación: Colabore con los responsables de la toma de decisiones para aprobar previamente las acciones para los escenarios previstos. Utilice runbooks de automatización de Systems Manager integrados con Incident Manager para acelerar la resolución de incidentes.

  5. Especifique la propiedad: Identifique claramente a los propietarios internos de cada paso de la ruta de escalado.

  6. Detalle los escalados de terceros:

    • Documente los acuerdos de nivel de servicio (SLA) de terceros y alinéelos con los objetivos internos.

    • Establezca protocolos claros para la comunicación con los proveedores durante los incidentes.

    • Integre los contactos de los proveedores en las herramientas de administración de incidentes para que se pueda acceder directamente a ellos.

    • Realice simulacros periódicos que incluyan escenarios de respuesta de terceros.

    • Mantenga la información de escalado de proveedores bien documentada y accesible.

  7. Entrene y ensaye los planes de escalamiento: Entrene a su equipo en el proceso de escalado y realice simulacros o días de juego de respuesta a incidentes con regularidad. Los clientes de Enterprise Support pueden solicitar un Taller de administración de incidentes.

  8. Continúe mejorando: Revise la eficacia de sus rutas de escalado con regularidad. Actualice sus procesos basándose en las lecciones aprendidas a partir de los análisis posteriores a los incidentes y los comentarios continuos.

Nivel de esfuerzo para el plan de implementación: Moderado

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados: