REL01-BP06 Garantizar que exista una diferencia suficiente entre las cuotas actuales y el uso máximo para permitir la conmutación por error

Cuando un recurso falla o es inaccesible, ese recurso puede seguir computando para una cuota dada hasta que se finalice correctamente. Compruebe que sus cuotas cubran el solapamiento de los recursos averiados o inaccesibles y sus sustitutos. A la hora de calcular esta brecha debe tener en cuenta casos de uso como errores de red, errores de la zona de disponibilidad o errores regionales.

Resultado deseado: los errores pequeños o grandes en los recursos o en la accesibilidad de los recursos pueden cubrirse dentro de los umbrales de servicio actuales. En la planificación de recursos se tienen en cuenta los errores de zona, de red o, incluso, regionales.

Antipatrones usuales:

Se establecen cuotas de servicio sobre la base de las necesidades actuales sin tener en cuenta los casos de conmutación por error.
No se tienen en cuenta los principios de estabilidad estática al calcular la cuota máxima de un servicio.
No se tiene en cuenta el potencial de recursos inaccesibles al calcular la cuota total necesaria para cada región.
No se tienen en cuenta los límites de aislamiento de errores del servicio de AWS para algunos servicios y sus posibles patrones de uso anómalos.

Beneficios de establecer esta práctica recomendada: cuando un evento de interrupción del servicio afecta a la disponibilidad de la aplicación, la nube le permite implementar estrategias para mitigar o recuperarse de estos eventos. Estas estrategias suelen incluir la creación de recursos adicionales para sustituir aquellos que han experimentado algún error o a los que no se puede acceder. La estrategia de cuotas se adaptaría a estas condiciones de conmutación por error y no introduciría degradaciones adicionales debidas al agotamiento de los límites de servicio.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: medio

Guía para la implementación

Al evaluar los límites de cuota, considere los casos de conmutación por error que podrían producirse debido a alguna degradación. Deben tenerse en cuenta los siguientes tipos de casos de conmutación por error:

Una VPC interrumpida o inaccesible.
Una subred inaccesible.
Una zona de disponibilidad que se ha degradado lo suficiente como para afectar a la accesibilidad de muchos recursos.
Varias rutas de red o puntos de entrada y salida bloqueados o modificados.
Una región que se ha degradado lo suficiente como para afectar a la accesibilidad de muchos recursos.
Hay numerosos recursos, pero no todos se ven afectados por un error en una región o zona de disponibilidad.

Los errores como los de la lista anterior podrían ser el detonante del inicio de un evento de conmutación por error. La decisión de conmutar por error es única para cada situación y cliente, ya que el efecto empresarial puede variar drásticamente. Sin embargo, cuando operacionalmente se decide conmutar por error aplicaciones o servicios, la planificación de la capacidad de los recursos en la ubicación de la conmutación por error y sus cuotas correspondientes deben abordarse antes del evento.

Revise las cuotas de servicio para cada servicio teniendo en cuenta los picos más altos de lo normal que puedan producirse. Estos picos pueden estar relacionados con recursos a los que no se puede acceder debido a la red o a los permisos, pero que siguen activos. Los recursos activos no finalizados seguirán contando para el límite de cuota de servicio.

Pasos para la implementación

Asegúrese de que haya una diferencia suficiente entre la cuota de servicio y el uso máximo para permitir la conmutación por error o una pérdida de accesibilidad.
Determine sus cuotas de servicio, teniendo en cuenta sus patrones de despliegue, los requisitos de disponibilidad y el crecimiento del consumo.
Solicite aumentos de la cuota si fuera necesario. Planifique el tiempo necesario para que se cumplan las solicitudes de aumentos de cuotas.
Determine sus requisitos de fiabilidad (también conocidos como «número de nueves»).
Establezca sus escenarios de error (por ejemplo, la pérdida de componentes, una zona de disponibilidad o una región).
Establezca su metodología de despliegue (por ejemplo, valor controlado, azul-verde, rojo-negro o continua).
Incluya un búfer adecuado (por ejemplo, del 15 %) en el límite actual.
Incluya cálculos de estabilidad estática (zonal y regional) cuando proceda.
Planifique el crecimiento de consumo (por ejemplo, supervise sus tendencias de consumo).
Considere la repercusión de la estabilidad estática para las cargas de trabajo más fundamentales. Evalúe los recursos conforme a un sistema estáticamente estable en todas las regiones y zonas de disponibilidad.
Considere el uso de reservas de capacidad bajo demanda para programar la capacidad antes de que se produzca una conmutación por error. Puede ser una estrategia útil durante las programaciones comerciales más cruciales para reducir los riesgos potenciales de obtener la cantidad y el tipo correctos de recursos durante la conmutación por error.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Pilar de fiabilidad de AWS Well-Architected Framework: disponibilidad
AWS Service Quotas (denominados anteriormente límites de servicio)
Comprobaciones de prácticas recomendadas de AWS Trusted Advisor (consulte la sección Límites de servicio)
AWS Limit Monitor en AWS Answers
Límites de servicio de Amazon EC2
¿Qué es Service Quotas?
Cómo solicitar un aumento de cuota
Puntos de conexión y cuotas de servicio
Guía del usuario de Service Quotas
Supervisor de cuotas para AWS
Límites de aislamiento de errores de AWS
Disponibilidad con redundancia
AWS para datos
¿Qué es la integración continua?
¿Qué es la entrega continua?
Socio de APN: socios que pueden ayudar con la administración de la configuración
Managing the account lifecycle in account-per-tenant SaaS environments on AWS(Administración del ciclo de vida de las cuentas en entornos SaaS de cuenta por inquilino en AWS)
Managing and monitoring API throttling in your workloads (Administrar y supervisar la limitación de las API en sus cargas de trabajo)
View AWS Trusted Advisor recommendations at scale with AWS Organizations(Ver recomendaciones de AWS Trusted Advisor a escala con AWS Organizations)
Automating Service Limit Increases and Enterprise Support with AWS Control Tower(Automatización de los aumentos del límite de servicio y asistencia a empresas con AWS Control Tower)
Acciones, recursos y claves de condición de los servicios de Service Quotas

Vídeos relacionados:

AWS Live re:Inforce 2019 - Service Quotas
View and Manage Quotas for AWS Services Using Service Quotas (Ver y administrar cuotas para AWS Services con Service Quotas)
AWS IAM Quotas Demo (Demostración de las cuotas de AWS IAM)
AWS re:Invent 2018: Close Loops and Opening Minds: How to Take Control of Systems, Big and Small (AWS re:Invent 2018: Cerrar los bucles y abrir las mentes: cómo asumir el control de los sistemas grandes y pequeños)

Herramientas relacionadas:

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

REL01-BP05 Automatizar la administración de cuotas

REL 2 ¿Cómo planifica la topología de la red?