REL05-BP07 Implementar recursos de emergencia
Los recursos de emergencia son procesos rápidos que pueden mitigar el impacto en la disponibilidad de la carga de trabajo.
Los recursos de emergencia desactivan, limitan o cambian el comportamiento de componentes o dependencias mediante mecanismos conocidos y probados. Esto puede aliviar las deficiencias de la carga de trabajo causadas por el agotamiento de los recursos debido a los aumentos inesperados de la demanda y reducir el impacto de los fallos en los componentes no críticos de la carga de trabajo.
Resultado deseado: al implementar recursos de emergencia, puede establecer procesos que se sabe que son buenos para mantener la disponibilidad de los componentes críticos de su carga de trabajo. La carga de trabajo debe degradarse de forma estable y seguir realizando sus funciones críticas para la empresa durante la activación de un recurso de emergencia. Para obtener más información sobre la degradación estable, consulte «REL05-BP01 Implementar una degradación estable para transformar las dependencias estrictas en flexibles».
Antipatrones usuales:
-
El fallo de las dependencias no críticas repercute en la disponibilidad de su carga de trabajo principal.
-
No probar o verificar el comportamiento de los componentes críticos durante el deterioro de los componentes no críticos.
-
No definir criterios claros y deterministas para la activación o desactivación de un recurso de emergencia.
Beneficios de establecer esta práctica recomendada: la implementación de recursos de emergencia puede mejorar la disponibilidad de los componentes críticos de su carga de trabajo al proporcionar a sus solucionadores procesos establecidos para responder a picos inesperados de demanda o fallos de dependencias no críticas.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: medio
Guía para la implementación
-
Identifique los componentes críticos de su carga de trabajo.
-
Diseñe y cree los componentes críticos de su carga de trabajo para que resistan los fallos de los componentes no críticos.
-
Realice pruebas para validar el comportamiento de sus componentes críticos durante el fallo de los componentes no críticos.
-
Defina y supervise las métricas o los factores desencadenantes relevantes para iniciar los procedimientos de recursos de emergencia.
-
Defina los procedimientos (manuales o automáticos) que componen el recurso de emergencia.
Pasos para la implementación
-
Identifique los componentes críticos para la empresa en su carga de trabajo.
-
Cada componente técnico de su carga de trabajo debe asignarse a su función empresarial relevante y clasificarse como crítico o no crítico. Para ver ejemplos de funciones críticas y no críticas de Amazon, lea «Any Day Can Be Prime Day: How Amazon.com Search Uses Chaos Engineering to Handle Over 84K Requests Per Second»
. -
Se trata de una decisión tanto técnica como empresarial, y varía según la organización y la carga de trabajo.
-
-
Diseñe y cree los componentes críticos de su carga de trabajo para que resistan los fallos de los componentes no críticos.
-
Durante el análisis de dependencias, tenga en cuenta todos los modos de fallo potenciales y verifique que sus mecanismos de recursos de emergencia proporcionan la funcionalidad crítica a los componentes downstream.
-
-
Realice pruebas para validar el comportamiento de sus componentes críticos durante la activación de sus recursos de emergencia.
-
Evite el comportamiento bimodal. Para obtener más información, consulte «REL11-BP05 Usar la estabilidad estática para evitar el comportamiento bimodal».
-
-
Defina, supervise y alerte sobre las métricas relevantes para iniciar el procedimiento del recurso de emergencia.
-
Encontrar las métricas adecuadas para supervisar depende de su carga de trabajo. Algunos ejemplos de métricas son la latencia o el número de solicitudes fallidas a una dependencia.
-
-
Defina los procedimientos (manuales o automáticos) que componen el recurso de emergencia.
-
Esto puede incluir mecanismos como el desbordamiento de carga
, la limitación de solicitudes o la implementación de una degradación estable.
-
Recursos
Prácticas recomendadas relacionadas:
Documentos relacionados:
Vídeos relacionados: