PERF05-BP05 Utilizar la automatización para solucionar de forma proactiva los problemas relacionados con el rendimiento - AWS Well-Architected Framework

PERF05-BP05 Utilizar la automatización para solucionar de forma proactiva los problemas relacionados con el rendimiento

Utilice los indicadores clave de rendimiento (KPI), junto con los sistemas de supervisión y alerta, para abordar de manera proactiva los problemas relacionados con el rendimiento.

Antipatrones usuales:

  • Únicamente permite que el personal de operaciones pueda llevar a cabo cambios operativos en la carga de trabajo.

  • Permite que todas las alarmas se filtren al equipo de operaciones sin medidas de corrección proactivas.

Ventajas de aplicar esta práctica recomendada: al solucionar de forma proactiva las acciones de alarma, al personal de soporte podrá concentrarse en aquellos elementos que no pueden abordarse de forma automática. De este modo, el personal de operaciones podrá gestionar todas las alarmas sin sentirse abrumado y concentrarse exclusivamente en las alarmas críticas.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: bajo

Guía para la implementación

Usa alarmas para activar acciones automatizadas y corregir los problemas siempre que sea posible. Escala la alarma a aquellos capaces de responder cuando no se pueda recurrir a la respuesta automatizada. Por ejemplo, podría tener un sistema capaz de predecir los valores esperados de los indicadores clave de rendimiento (KPI) y emitir alarmas cuando se sobrepasen ciertos umbrales, o una herramienta que pudiera detener o revertir automáticamente los despliegues si los KPI están fuera de los valores esperados.

Implementar procesos que proporcionen visibilidad del rendimiento a medida que ejecuta la carga de trabajo. Cree paneles de supervisión y establezca normas de referencia sobre las expectativas del rendimiento para determinar si la carga de trabajo funciona de manera óptima.

Pasos para la implementación

  • Identificar el flujo de trabajo de corrección: identifique y estudie si el problema de rendimiento puede solucionarse automáticamente. Use soluciones de supervisión de AWS, como Amazon CloudWatch o AWS X-Ray, que le ayuden a comprender mejor la causa principal del problema.

  • Definir el proceso de automatización: cree un proceso de corrección paso a paso que pueda usarse para solucionar el problema automáticamente.

  • Configurar el evento de inicio: configure el evento para iniciar automáticamente el proceso de corrección. Por ejemplo, puede definir un activador que reinicie automáticamente una instancia cuando se alcance un determinado umbral de uso de la CPU.

  • Automatizar la corrección: utilice los servicios y las tecnologías de AWS para automatizar el proceso de corrección. Por ejemplo, la Automatización de AWS Systems Manager proporciona un mecanismo seguro y escalable para automatizar el proceso de corrección. Asegúrese de usar la lógica de autorrecuperación para revertir los cambios si el problema no se soluciona correctamente.

  • Probar el flujo de trabajo: pruebe el proceso de corrección automatizado en un entorno de preproducción.

  • Implementar el flujo de trabajo: implemente la corrección automatizada en el entorno de producción.

  • Desarrollar una guía de estrategias: desarrolle y documente una guía de estrategias que describa los pasos del plan de corrección, incluidos los eventos de inicio, la lógica de corrección y las medidas adoptadas. Asegúrese de que las partes interesadas reciban formación para que puedan responder de manera eficaz a los eventos de corrección automatizada.

  • Revisar y perfeccionar: evalúe periódicamente la eficacia del flujo de trabajo de corrección automatizada. Ajuste los eventos de inicio y la lógica de corrección si es necesario.

Recursos

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados: