REL05-BP07 Implementar recursos de emergencia - AWS Well-Architected Framework

REL05-BP07 Implementar recursos de emergencia

Los recursos de emergencia son procesos rápidos que pueden mitigar el impacto en la disponibilidad de la carga de trabajo.

Los recursos de emergencia desactivan, limitan o cambian el comportamiento de componentes o dependencias mediante mecanismos conocidos y probados. Esto puede aliviar las deficiencias de la carga de trabajo causadas por el agotamiento de los recursos debido a los aumentos inesperados de la demanda y reducir el impacto de los fallos en los componentes no críticos de la carga de trabajo.

Resultado deseado: al implementar recursos de emergencia, puede establecer procesos que se sabe que son buenos para mantener la disponibilidad de los componentes críticos de su carga de trabajo. La carga de trabajo debe degradarse de forma estable y seguir realizando sus funciones críticas para la empresa durante la activación de un recurso de emergencia. Para obtener más información sobre la degradación estable, consulte «REL05-BP01 Implementar una degradación estable para transformar las dependencias estrictas en flexibles».

Antipatrones usuales:

  • El fallo de las dependencias no críticas repercute en la disponibilidad de su carga de trabajo principal.

  • No probar o verificar el comportamiento de los componentes críticos durante el deterioro de los componentes no críticos.

  • No definir criterios claros y deterministas para la activación o desactivación de un recurso de emergencia.

Beneficios de establecer esta práctica recomendada: la implementación de recursos de emergencia puede mejorar la disponibilidad de los componentes críticos de su carga de trabajo al proporcionar a sus solucionadores procesos establecidos para responder a picos inesperados de demanda o fallos de dependencias no críticas.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: medio

Guía para la implementación

  • Identifique los componentes críticos de su carga de trabajo.

  • Diseñe y cree los componentes críticos de su carga de trabajo para que resistan los fallos de los componentes no críticos.

  • Realice pruebas para validar el comportamiento de sus componentes críticos durante el fallo de los componentes no críticos.

  • Defina y supervise las métricas o los factores desencadenantes relevantes para iniciar los procedimientos de recursos de emergencia.

  • Defina los procedimientos (manuales o automáticos) que componen el recurso de emergencia.

Pasos para la implementación

  • Identifique los componentes críticos para la empresa en su carga de trabajo.

  • Diseñe y cree los componentes críticos de su carga de trabajo para que resistan los fallos de los componentes no críticos.

    • Durante el análisis de dependencias, tenga en cuenta todos los modos de fallo potenciales y verifique que sus mecanismos de recursos de emergencia proporcionan la funcionalidad crítica a los componentes downstream.

  • Realice pruebas para validar el comportamiento de sus componentes críticos durante la activación de sus recursos de emergencia.

  • Defina, supervise y alerte sobre las métricas relevantes para iniciar el procedimiento del recurso de emergencia.

    • Encontrar las métricas adecuadas para supervisar depende de su carga de trabajo. Algunos ejemplos de métricas son la latencia o el número de solicitudes fallidas a una dependencia.

  • Defina los procedimientos (manuales o automáticos) que componen el recurso de emergencia.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados: