OPS09-BP06 Alertar cuando los resultados de las operaciones estén en riesgo - AWS Well-Architected Framework

OPS09-BP06 Alertar cuando los resultados de las operaciones estén en riesgo

Siempre que los resultados de las operaciones estén en riesgo, se debe generar una alerta y actuar en consecuencia. Los resultados de las operaciones son cualquier actividad que admita una carga de trabajo en producción. Esto incluye todo, desde desplegar nuevas versiones de aplicaciones hasta recuperarse de una interrupción. Los resultados de las operaciones se deben tratar con la misma importancia que los resultados empresariales.

Los equipos de software deben identificar las métricas y actividades clave de las operaciones y crear alertas para ellas. Las alertas deben ser oportunas y procesables. Si se produce una alerta, debe incluirse una referencia a un runbook o una guía de estrategias correspondiente. Las alertas sin una acción correspondiente pueden conllevar una saturación de alertas.

Resultado deseado: cuando las actividades de las operaciones están en riesgo, se envían alertas para impulsar la acción. Las alertas contienen el contexto de los motivos por los que se produce una alerta e indican una guía de estrategias para investigar o un runbook para mitigarla. En la medida de lo posible, se automatizan los runbooks y se envían notificaciones.

Patrones comunes de uso no recomendados:

  • Está investigando un incidente y se están presentando casos de asistencia. Estos casos incumplen el acuerdo de nivel de servicio (SLA), pero no se están generando alertas.

  • Un despliegue a producción programado para medianoche se retrasa debido a cambios de código de última hora. No se genera ninguna alerta y el despliegue se bloquea.

  • Se produce una interrupción de producción pero no se envían alertas.

  • Su tiempo de despliegue se retrasa sistemáticamente con respecto a las estimaciones. No se toma ninguna medida para investigar.

Beneficios de establecer esta práctica recomendada:

  • Las alertas cuando los resultados de las operaciones están en riesgo impulsan su capacidad de prestar asistencia a la carga de trabajo al adelantarse a los problemas.

  • Los resultados empresariales mejoran gracias a los resultados de las operaciones en buen estado.

  • Se han mejorado la detección y la reparación de los problemas de las operaciones.

  • El estado operativo general aumenta.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Medio

Guía para la implementación

Se deben definir los resultados de las operaciones para poder generar alertas de ellos. Empiece por definir qué actividades operativas son las más importantes para su organización. ¿Se trata de desplegar a producción en menos de dos horas o de responder a un caso de asistencia en un tiempo determinado? Su organización debe definir las actividades clave de las operaciones y cómo se miden para poder supervisarlas, mejorarlas y generar alertas de ellas. Necesita una ubicación central donde se almacene y analice la carga de trabajo y la telemetría de las operaciones. El mismo mecanismo debe poder emitir una alerta cuando el resultado de una operación esté en peligro.

Ejemplo de cliente

Se ha desencadenado una alarma de CloudWatch durante un despliegue rutinario en AnyCompany Retail. Se ha sobrepasado el plazo de despliegue. Amazon EventBridge ha creado un OpsItem en AWS Systems Manager OpsCenter. El equipo de operaciones en la nube ha utilizado una guía de estrategias para investigar el problema y ha identificado que un cambio de esquema tardaba más de lo previsto. Ha alertado al desarrollador de guardia y ha seguido supervisando el despliegue. Una vez desplegado, el equipo de operaciones en la nube ha resuelto el OpsItem. El equipo analizará el incidente durante una autopsia.

Pasos para la aplicación

  1. Si no ha identificado los KPI, las métricas ni las actividades de las operaciones, trabaje en la implementación de las prácticas recomendadas anteriores a esta cuestión (OPS09-BP01 a OPS09-BP05).

    • Los clientes de AWS Support con Asistencia Enterprise pueden solicitar el taller sobre KPI de operaciones a su gerente técnico de cuentas. Este taller de colaboración, que se ofrece sin coste adicional, le ayuda a definir los KPI de las operaciones y las métricas alineadas con los objetivos empresariales. Póngase en contacto con su gerente de cuentas técnicas para obtener más información.

  2. Una vez que tenga establecidas las actividades de las operaciones, los KPI y las métricas, configure las alertas en su plataforma de observabilidad. Las alertas deben tener una acción asociada, como una guía de estrategias o un runbook. Deben evitarse las alertas sin una acción.

  3. Con el tiempo, deberá evaluar las métricas de las operaciones, los KPI y las actividades para identificar las áreas de mejora. Capture la retroalimentación de los operadores en los runbooks y guías de estrategias para identificar las áreas de mejora en la respuesta a las alertas.

  4. Las alertas deben incluir un mecanismo para marcarlas como un falso positivo. Esto debería conllevar una revisión de los umbrales de las métricas.

Nivel de esfuerzo para el plan de implementación: Medio. Hay varias prácticas recomendadas que deben estar aplicadas antes de implementar esta práctica recomendada. Una vez que se han identificado las actividades de las operaciones y se han establecido los KPI de ellas, deben establecerse las alertas.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados:

Servicios relacionados: