OPS08-BP04 Crear alertas procesables - Pilar de excelencia operativa

OPS08-BP04 Crear alertas procesables

Es crucial detectar y responder rápidamente a las desviaciones en el comportamiento de su aplicación. Es especialmente vital reconocer cuándo están en peligro los resultados basados en los indicadores clave de rendimiento (KPI) o cuándo surgen anomalías inesperadas. Basar las alertas en los KPI garantiza que las señales que reciba estén directamente relacionadas con el impacto empresarial u operativo. Este enfoque de alertas procesables promueve respuestas proactivas y ayuda a mantener el rendimiento y la fiabilidad del sistema.

Resultado deseado: reciba alertas oportunas, pertinentes y procesables para identificar y mitigar rápidamente los posibles problemas, especialmente cuando los resultados de los KPI están en peligro.

Antipatrones usuales:

  • Configurar demasiadas alertas que no son cruciales, lo que provoca un exceso de alertas.

  • No se da prioridad a las alertas en función de los KPI, lo que dificulta la comprensión del impacto empresarial de los problemas.

  • Si no se abordan las causas raíz, se generan alertas repetitivas sobre el mismo problema.

Beneficios de establecer esta práctica recomendada:

  • Se reduce el exceso de alertas al poner el foco en las alertas pertinentes y procesables.

  • Mejora del tiempo de actividad y la fiabilidad del sistema gracias a la detección y mitigación proactivas de problemas.

  • Mejora de la colaboración en equipo y resolución de problemas más rápida mediante la integración con herramientas de alerta y comunicación populares.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto

Guía para la implementación

Para crear un mecanismo de alerta eficaz, es fundamental utilizar métricas, registros y datos de rastreo que indiquen cuándo los resultados basados en los KPI están en peligro o se detectan anomalías.

Pasos para la implementación

  1. Determine los indicadores clave de rendimiento (KPI): identifique los KPI de su aplicación. Las alertas deben estar vinculadas a estos KPI para reflejar el impacto empresarial con precisión.

  2. Implemente la detección de anomalías:

  3. Implemente alertas procesables: diseñe alertas que proporcionen la información adecuada para realizar una acción inmediata.

    1. Supervise eventos de AWS Health con reglas de Amazon EventBridge o intégrelos mediante programación con la API de AWS Health para automatizar las acciones cuando reciba eventos de AWS Health. Puede tratarse de acciones generales, como el envío de todos los mensajes de eventos del ciclo de vida planificado a una interfaz de chat, o de acciones específicas, como el inicio de un flujo de trabajo en una herramienta de administración de servicios de TI.

  4. Reduzca la fatiga por exceso de alertas: minimice las alertas no críticas. Cuando los equipos se sienten abrumados porque reciben numerosas alertas insignificantes, podrían dejar pasar problemas críticos, lo que disminuye la eficacia general del mecanismo de alertas.

  5. Configure alarmas compuestas: utilice alarmas compuestas de Amazon CloudWatch para consolidar varias alarmas.

  6. Integre con herramientas de alerta: incorpore herramientas como Ops Genie y PagerDuty.

  7. Interactúe con AWS Chatbot: integre AWS Chatbot para transmitir alertas a Amazon Chime, Microsoft Teams y Slack.

  8. Alerta basada en registros: utilice filtros de métricas de registro en CloudWatch para crear alarmas basadas en eventos de registro específicos.

  9. Revise e itere: revise y perfeccione con regularidad las configuraciones de alertas.

Nivel de esfuerzo para el plan de implementación: medio.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados: