REL01-BP06 Garantizar que exista una diferencia suficiente entre las cuotas actuales y el uso máximo para permitir la conmutación por error
Cuando un recurso falla o es inaccesible, ese recurso puede seguir computando para una cuota dada hasta que se finalice correctamente. Compruebe que sus cuotas cubran el solapamiento de los recursos averiados o inaccesibles y sus sustitutos. A la hora de calcular esta brecha debe tener en cuenta casos de uso como errores de red, errores de la zona de disponibilidad o errores regionales.
Resultado deseado: los errores pequeños o grandes en los recursos o en la accesibilidad de los recursos pueden cubrirse dentro de los umbrales de servicio actuales. En la planificación de recursos se tienen en cuenta los errores de zona, de red o, incluso, regionales.
Antipatrones usuales:
-
Se establecen cuotas de servicio sobre la base de las necesidades actuales sin tener en cuenta los casos de conmutación por error.
-
No se tienen en cuenta los principios de estabilidad estática al calcular la cuota máxima de un servicio.
-
No se tiene en cuenta el potencial de recursos inaccesibles al calcular la cuota total necesaria para cada región.
-
No se tienen en cuenta los límites de aislamiento de errores del servicio de AWS para algunos servicios y sus posibles patrones de uso anómalos.
Beneficios de establecer esta práctica recomendada: cuando un evento de interrupción del servicio afecta a la disponibilidad de la aplicación, la nube le permite implementar estrategias para mitigar o recuperarse de estos eventos. Estas estrategias suelen incluir la creación de recursos adicionales para sustituir aquellos que han experimentado algún error o a los que no se puede acceder. La estrategia de cuotas se adaptaría a estas condiciones de conmutación por error y no introduciría degradaciones adicionales debidas al agotamiento de los límites de servicio.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: medio
Guía para la implementación
Al evaluar los límites de cuota, considere los casos de conmutación por error que podrían producirse debido a alguna degradación. Deben tenerse en cuenta los siguientes tipos de casos de conmutación por error:
-
Una VPC interrumpida o inaccesible.
-
Una subred inaccesible.
-
Una zona de disponibilidad que se ha degradado lo suficiente como para afectar a la accesibilidad de muchos recursos.
-
Varias rutas de red o puntos de entrada y salida bloqueados o modificados.
-
Una región que se ha degradado lo suficiente como para afectar a la accesibilidad de muchos recursos.
-
Hay numerosos recursos, pero no todos se ven afectados por un error en una región o zona de disponibilidad.
Los errores como los de la lista anterior podrían ser el detonante del inicio de un evento de conmutación por error. La decisión de conmutar por error es única para cada situación y cliente, ya que el efecto empresarial puede variar drásticamente. Sin embargo, cuando operacionalmente se decide conmutar por error aplicaciones o servicios, la planificación de la capacidad de los recursos en la ubicación de la conmutación por error y sus cuotas correspondientes deben abordarse antes del evento.
Revise las cuotas de servicio para cada servicio teniendo en cuenta los picos más altos de lo normal que puedan producirse. Estos picos pueden estar relacionados con recursos a los que no se puede acceder debido a la red o a los permisos, pero que siguen activos. Los recursos activos no finalizados seguirán contando para el límite de cuota de servicio.
Pasos para la implementación
-
Asegúrese de que haya una diferencia suficiente entre la cuota de servicio y el uso máximo para permitir la conmutación por error o una pérdida de accesibilidad.
-
Determine sus cuotas de servicio, teniendo en cuenta sus patrones de despliegue, los requisitos de disponibilidad y el crecimiento del consumo.
-
Solicite aumentos de la cuota si fuera necesario. Planifique el tiempo necesario para que se cumplan las solicitudes de aumentos de cuotas.
-
Determine sus requisitos de fiabilidad (también conocidos como «número de nueves»).
-
Establezca sus escenarios de error (por ejemplo, la pérdida de componentes, una zona de disponibilidad o una región).
-
Establezca su metodología de despliegue (por ejemplo, valor controlado, azul-verde, rojo-negro o continua).
-
Incluya un búfer adecuado (por ejemplo, del 15 %) en el límite actual.
-
Incluya cálculos de estabilidad estática (zonal y regional) cuando proceda.
-
Planifique el crecimiento de consumo (por ejemplo, supervise sus tendencias de consumo).
-
Considere la repercusión de la estabilidad estática para las cargas de trabajo más fundamentales. Evalúe los recursos conforme a un sistema estáticamente estable en todas las regiones y zonas de disponibilidad.
-
Considere el uso de reservas de capacidad bajo demanda para programar la capacidad antes de que se produzca una conmutación por error. Puede ser una estrategia útil durante las programaciones comerciales más cruciales para reducir los riesgos potenciales de obtener la cantidad y el tipo correctos de recursos durante la conmutación por error.
Recursos
Prácticas recomendadas relacionadas:
-
REL01-BP01 Conocimiento de las cuotas y restricciones del servicio
-
REL01-BP02 Administrar cuotas de servicio en cuentas y regiones
-
REL01-BP03 Adaptar las cuotas de servicio fijas y las restricciones a través de la arquitectura
-
REL10-BP01 Implementar la carga de trabajo en varias ubicaciones
-
REL11-BP01 Supervisar todos los componentes de la carga de trabajo para detectar errores
-
REL12-BP05 Probar la resiliencia mediante la ingeniería del caos
Documentos relacionados:
-
Pilar de fiabilidad de AWS Well-Architected Framework: disponibilidad
-
AWS Service Quotas (denominados anteriormente límites de servicio)
-
Socio de APN: socios que pueden ayudar con la administración de la configuración
-
Managing the account lifecycle in account-per-tenant SaaS environments on AWS
(Administración del ciclo de vida de las cuentas en entornos SaaS de cuenta por inquilino en AWS) -
Managing and monitoring API throttling in your workloads
(Administrar y supervisar la limitación de las API en sus cargas de trabajo) -
View AWS Trusted Advisor recommendations at scale with AWS Organizations
(Ver recomendaciones de AWS Trusted Advisor a escala con AWS Organizations) -
Automating Service Limit Increases and Enterprise Support with AWS Control Tower
(Automatización de los aumentos del límite de servicio y asistencia a empresas con AWS Control Tower) -
Acciones, recursos y claves de condición de los servicios de Service Quotas
Vídeos relacionados:
-
View and Manage Quotas for AWS Services Using Service Quotas
(Ver y administrar cuotas para AWS Services con Service Quotas) -
AWS IAM Quotas Demo
(Demostración de las cuotas de AWS IAM) -
AWS re:Invent 2018: Close Loops and Opening Minds: How to Take Control of Systems, Big and Small
(AWS re:Invent 2018: Cerrar los bucles y abrir las mentes: cómo asumir el control de los sistemas grandes y pequeños)
Herramientas relacionadas: