OPS09-BP06 Alertar cuando los resultados de las operaciones estén en riesgo
Siempre que los resultados de las operaciones estén en riesgo, se debe generar una alerta y actuar en consecuencia. Los resultados de las operaciones son cualquier actividad que admita una carga de trabajo en producción. Esto incluye todo, desde desplegar nuevas versiones de aplicaciones hasta recuperarse de una interrupción. Los resultados de las operaciones se deben tratar con la misma importancia que los resultados empresariales.
Los equipos de software deben identificar las métricas y actividades clave de las operaciones y crear alertas para ellas. Las alertas deben ser oportunas y procesables. Si se produce una alerta, debe incluirse una referencia a un runbook o una guía de estrategias correspondiente. Las alertas sin una acción correspondiente pueden conllevar una saturación de alertas.
Resultado deseado: cuando las actividades de las operaciones están en riesgo, se envían alertas para impulsar la acción. Las alertas contienen el contexto de los motivos por los que se produce una alerta e indican una guía de estrategias para investigar o un runbook para mitigarla. En la medida de lo posible, se automatizan los runbooks y se envían notificaciones.
Patrones comunes de uso no recomendados:
-
Está investigando un incidente y se están presentando casos de asistencia. Estos casos incumplen el acuerdo de nivel de servicio (SLA), pero no se están generando alertas.
-
Un despliegue a producción programado para medianoche se retrasa debido a cambios de código de última hora. No se genera ninguna alerta y el despliegue se bloquea.
-
Se produce una interrupción de producción pero no se envían alertas.
-
Su tiempo de despliegue se retrasa sistemáticamente con respecto a las estimaciones. No se toma ninguna medida para investigar.
Beneficios de establecer esta práctica recomendada:
-
Las alertas cuando los resultados de las operaciones están en riesgo impulsan su capacidad de prestar asistencia a la carga de trabajo al adelantarse a los problemas.
-
Los resultados empresariales mejoran gracias a los resultados de las operaciones en buen estado.
-
Se han mejorado la detección y la reparación de los problemas de las operaciones.
-
El estado operativo general aumenta.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: Medio
Guía para la implementación
Se deben definir los resultados de las operaciones para poder generar alertas de ellos. Empiece por definir qué actividades operativas son las más importantes para su organización. ¿Se trata de desplegar a producción en menos de dos horas o de responder a un caso de asistencia en un tiempo determinado? Su organización debe definir las actividades clave de las operaciones y cómo se miden para poder supervisarlas, mejorarlas y generar alertas de ellas. Necesita una ubicación central donde se almacene y analice la carga de trabajo y la telemetría de las operaciones. El mismo mecanismo debe poder emitir una alerta cuando el resultado de una operación esté en peligro.
Ejemplo de cliente
Se ha desencadenado una alarma de CloudWatch durante un despliegue rutinario en AnyCompany Retail. Se ha sobrepasado el plazo de despliegue. Amazon EventBridge ha creado un OpsItem en AWS Systems Manager OpsCenter. El equipo de operaciones en la nube ha utilizado una guía de estrategias para investigar el problema y ha identificado que un cambio de esquema tardaba más de lo previsto. Ha alertado al desarrollador de guardia y ha seguido supervisando el despliegue. Una vez desplegado, el equipo de operaciones en la nube ha resuelto el OpsItem. El equipo analizará el incidente durante una autopsia.
Pasos para la aplicación
-
Si no ha identificado los KPI, las métricas ni las actividades de las operaciones, trabaje en la implementación de las prácticas recomendadas anteriores a esta cuestión (OPS09-BP01 a OPS09-BP05).
-
Los clientes de Support con Asistencia Enterprise
pueden solicitar el taller sobre KPI de operaciones a su gerente técnico de cuentas. Este taller de colaboración, que se ofrece sin coste adicional, le ayuda a definir los KPI de las operaciones y las métricas alineadas con los objetivos empresariales. Póngase en contacto con su gerente de cuentas técnicas para obtener más información.
-
-
Una vez que tenga establecidas las actividades de las operaciones, los KPI y las métricas, configure las alertas en su plataforma de observabilidad. Las alertas deben tener una acción asociada, como una guía de estrategias o un runbook. Deben evitarse las alertas sin una acción.
-
Con el tiempo, deberá evaluar las métricas de las operaciones, los KPI y las actividades para identificar las áreas de mejora. Capture la retroalimentación de los operadores en los runbooks y guías de estrategias para identificar las áreas de mejora en la respuesta a las alertas.
-
Las alertas deben incluir un mecanismo para marcarlas como un falso positivo. Esto debería conllevar una revisión de los umbrales de las métricas.
Nivel de esfuerzo para el plan de implementación: Medio. Hay varias prácticas recomendadas que deben estar aplicadas antes de implementar esta práctica recomendada. Una vez que se han identificado las actividades de las operaciones y se han establecido los KPI de ellas, deben establecerse las alertas.
Recursos
Prácticas recomendadas relacionadas:
-
OPS02-BP03 Las actividades operativas han identificado a los propietarios responsables de su rendimiento: todas las actividades y resultados de las operaciones deben tener un propietario identificado que sea responsable. Es quien debe recibir la alerta cuando los resultados están en riesgo.
-
OPS03-BP02 Los miembros del equipo están capacitados para actuar cuando los resultados están en riesgo: cuando se produzcan las alertas, su equipo debe tener una agencia para actuar y solucionar el problema.
-
OPS09-BP01 Identificar los indicadores clave de rendimiento: las alertas de los resultados de las operaciones empiezan por identificar los KPI de las operaciones.
-
OPS09-BP02 Definir métricas de operaciones: establezca esta práctica recomendada antes de empezar a generar alertas.
-
OPS09-BP03 Recopilar y analizar métricas de operaciones: la recopilación centralizada de las métricas de las operaciones es necesaria para crear alertas.
-
OPS09-BP04 Establecer referencias de métricas de operaciones: las bases de referencia de las métricas de operaciones proporcionan la capacidad de ajustar las alertas y evitar la saturación.
-
OPS09-BP05 Descubrir patrones esperados de actividad para las operaciones: puede mejorar la precisión de las alertas si comprende los patrones de actividad de los eventos de las operaciones.
-
OPS09-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas: evalúe la consecución de los resultados de las operaciones para asegurarse de que sus indicadores clave de rendimiento y sus métricas son válidos.
-
OPS10-BP02 Tener un proceso por alerta: cada alerta debe tener asociado un runbook o una guía de estrategias y proporcionar el contexto a la persona a la que se alerta.
-
OPS11-BP02 Realizar un análisis después del incidente: realice un análisis posterior al incidente después de la alerta para identificar las áreas de mejora.
Documentos relacionados:
Vídeos relacionados:
Ejemplos relacionados:
Servicios relacionados: