Mejores prácticas al configurar el cambio automático zonal

Tenga en cuenta las siguientes prácticas recomendadas y consideraciones al habilitar el cambio automático zonal en Amazon Application Recovery Controller (ARC).

El cambio automático zonal incluye dos tipos de cambios de tráfico: los cambios automáticos y los turnos zonales de práctica.

Con el cambio automático, AWS ayuda a reducir el tiempo de recuperación al desviar el tráfico de recursos de las aplicaciones desde una zona de disponibilidad durante los eventos, en su nombre.
En el caso de las sesiones de práctica, ARC inicia un turno zonal en su nombre o usted inicia una sesión de práctica en un turno zonal. En la AWS práctica, el cambio zonal desvía el tráfico de una zona de disponibilidad para dirigirse a un recurso y viceversa, siguiendo una cadencia semanal. Las ejecuciones de práctica le ayudan a asegurarse de que ha escalado verticalmente la capacidad suficiente para las zonas de disponibilidad de una región como para que su aplicación tolere la pérdida de una zona de disponibilidad.

Hay varias prácticas recomendadas y consideraciones que se deben tener en cuenta con los turnos automáticos y las sesiones de práctica. Revise los siguientes temas antes de habilitar un cambio automático de zona o configurar ejecuciones de práctica para un recurso.

Temas

Limite el tiempo que los clientes permanecen conectados a sus terminales
Redimensiona la capacidad de tus recursos y prueba los cambios de tráfico
Tenga en cuenta los tipos de recursos y las restricciones
Especifique las alarmas para las sesiones de práctica
Evalúe los resultados de las sesiones de práctica

Limite el tiempo que los clientes permanecen conectados a sus terminales

Cuando Amazon Application Recovery Controller (ARC) desvía el tráfico de una zona afectada, por ejemplo, mediante el cambio zonal o el cambio automático zonal, el mecanismo que utiliza ARC para mover el tráfico de las aplicaciones es una actualización del DNS. Una actualización del DNS provoca que todas las conexiones nuevas se dirijan lejos de la ubicación dañada. Sin embargo, los clientes con conexiones abiertas preexistentes pueden seguir realizando solicitudes a la ubicación dañada hasta que los clientes se vuelvan a conectar. Para garantizar una recuperación rápida, le recomendamos que limite el tiempo que los clientes permanecen conectados a sus terminales.

Si usa un Application Load Balancer, puede usar la keepalive opción para configurar la duración de las conexiones. Le sugerimos que reduzca el keepalive valor para ajustarlo al objetivo de tiempo de recuperación de su aplicación, por ejemplo, 300 segundos. Al elegir una keepalive hora, tenga en cuenta que este valor es una compensación entre volver a conectarse con más frecuencia, en general, lo que puede afectar a la latencia, y alejar más rápidamente a todos los clientes de una zona de disponibilidad o región con problemas.

Para obtener más información sobre cómo configurar la keepalive opción para Application Load Balancer, consulte la duración del mantenimiento del cliente HTTP en la Guía del usuario del Application Load Balancer.

Redimensiona la capacidad de tus recursos y prueba los cambios de tráfico

Cuando se AWS desplaza el tráfico de una zona de disponibilidad a un cambio zonal o automático, es importante que las zonas de disponibilidad restantes puedan atender las crecientes tasas de solicitud de su recurso. Este patrón se conoce como estabilidad estática. Para obtener más información, consulte el documento técnico Estabilidad estática con zonas de disponibilidad en la Amazon Builder’s Library.

Por ejemplo, si la aplicación necesita 30 instancias para atender a sus clientes, debe aprovisionar 15 instancias en tres zonas de disponibilidad, para un total de 45 instancias. De este modo, cuando el tráfico se AWS desplaza fuera de una zona de disponibilidad (con un cambio automático o durante una sesión de práctica),AWS podrá seguir atendiendo a los clientes de su aplicación con el total restante de 30 instancias, distribuidas en dos zonas de disponibilidad.

La función de cambio automático zonal de ARC le ayuda a recuperarse rápidamente de AWS los eventos ocurridos en una zona de disponibilidad cuando tiene una aplicación con recursos que están preescalados para funcionar con normalidad ante la pérdida de una zona de disponibilidad. Antes de habilitar el cambio automático de zona para un recurso, escale la capacidad del recurso en todas las zonas de disponibilidad configuradas de una Región de AWS. A continuación, inicie los cambios de zona del recurso para comprobar que la aplicación sigue funcionando con normalidad cuando el tráfico se desvíe de una zona de disponibilidad.

Después de realizar la prueba con cambios de zona, habilite el cambio automático de zona y configure las ejecuciones de práctica para los recursos de la aplicación. Realice sus propias simulaciones de práctica bajo demanda para asegurarse de que la configuración se escale correctamente. Las ejecuciones de práctica periódicas con cambio automático de zona le ayudan a asegurarse, de forma continua, de que su capacidad sigue escalándose de forma adecuada. Con suficiente capacidad en todas las zonas de disponibilidad, la aplicación puede seguir atendiendo a los clientes, sin interrupciones, durante un cambio automático.

Para obtener más información sobre cómo iniciar un cambio de zona de un recurso, consulte Cambio zonal en ARC.

Tenga en cuenta los tipos y las restricciones de los recursos

El cambio automático de zona permite desviar el tráfico de una zona de disponibilidad de todos los recursos compatibles con el cambio de zona. En algunas situaciones específicas de recursos, el cambio automático de zona no desvía el tráfico de una zona de disponibilidad para un cambio automático.

Por ejemplo, si los grupos de destino del equilibrador de carga de las zonas de disponibilidad no tienen ninguna instancia o si todas las instancias tienen un estado incorrecto, el equilibrador de carga se encuentra en un estado de apertura por error. Si se AWS inicia un cambio automático para un balanceador de cargas en este escenario, el cambio automático no cambia las zonas de disponibilidad que usa el balanceador de cargas porque el balanceador de cargas ya está en un estado de apertura por error. Este es el comportamiento esperado. El cambio automático no puede provocar que una zona de disponibilidad esté en mal estado y desviar el tráfico a las demás zonas de disponibilidad Región de AWS si todas las zonas de disponibilidad se abren por error (en mal estado).

Para obtener más información sobre los recursos compatibles, incluidos todos los requisitos y excepciones que debe tener en cuenta, consulte Recursos admitidos.

Especifique las alarmas para las sesiones de práctica

Debe configurar al menos un tipo de alarma (una alarma de resultado) para las sesiones de práctica con cambio automático zonal. Opcionalmente, también puedes configurar un segundo tipo de alarma (alarmas de bloqueo).

Al considerar las CloudWatch alarmas que configura para las ejecuciones de práctica de su recurso, tenga en cuenta lo siguiente:

Debe configurar al menos una alarma de resultado para una configuración de ejecución de práctica. En el caso de las alarmas de resultados, le recomendamos que CloudWatch las configure para que pasen a un ALARM estado en el que las métricas del recurso o de la aplicación indiquen que desplazar el tráfico fuera de la zona de disponibilidad afecta negativamente al rendimiento. Por ejemplo, puede determinar un umbral para las tasas de solicitud de un recurso y, a continuación, configurar una alarma para que pase a un estado de ALARM cuando se supere dicho umbral. Usted es responsable de configurar las alarmas adecuadas AWS para poner fin a la práctica y obtener un FAILED resultado.
Le recomendamos que siga el AWS Well Architected Framework, que le aconseja implementar indicadores clave de rendimiento (KPIs) como CloudWatch alarmas. Si lo hace, puede usar estas alarmas para crear una alarma compuesta que sirva como desencadenador de seguridad y evitar que se inicien ejecuciones de práctica en el caso de que pudieran impedir que la aplicación no cumpliera con un KPI. Cuando la alarma deja de estar activaALARM, ARC inicia las sesiones de práctica la próxima vez que se programe una sesión de práctica para el recurso.
Para practicar las alarmas de bloqueo, si decide configurar una (o más), puede optar por realizar un seguimiento de métricas específicas que utilice para indicar que no desea que se inicie una ejecución de AWS práctica, por ejemplo, cuando una alarma indica que hay un incidente en curso.
Para practicar la ejecución de alarmas, debe especificar el nombre de recurso de Amazon (ARN) para cada alarma, por lo que primero debe configurar la alarma en Amazon. CloudWatch Las CloudWatch alarmas que especifique pueden ser alarmas compuestas, lo que le permitirá incluir varias métricas y comprobaciones para su aplicación y recurso que puedan activar la alarma para que pase a un ALARM estado. O bien, puede configurar alarmas independientes y, a continuación, especificar más de una alarma de cada tipo para la configuración de su sesión de práctica. Para obtener más información, consulta Combinación de alarmas en la Guía del CloudWatch usuario de Amazon.
Asegúrese de que las CloudWatch alarmas que especifique para las ejecuciones de práctica estén en la misma región que el recurso para el que está configurando una ejecución de práctica.

Evalúa los resultados de las sesiones de práctica

El ARC informa un resultado para cada sesión de práctica. Después de una sesión de práctica, evalúa el resultado y determina si necesitas tomar medidas. Por ejemplo, es posible que necesite ampliar la capacidad o ajustar la configuración de una alarma.

A continuación se muestran los posibles resultados de las ejecuciones de práctica:

Se realizó correctamente: ninguna alarma de resultado entró en un ALARM estado durante la ejecución de práctica y la ejecución de práctica completó el período de prueba completo de 30 minutos.
FALLIDO: Al menos una alarma de resultado se ALARM activó durante la sesión de práctica.
INTERRUMPIDA: la ejecución de práctica finalizó por un motivo distinto al de la alarma de resultado al entrar en un estado de ALARM. Una ejecución de práctica puede interrumpirse por varios motivos. Entre ellos, se incluyen los siguientes:
- La sesión de práctica finalizó porque se AWS inició un cambio automático Región de AWS o se produjo una alarma en la región.
- La ejecución de práctica finalizó porque se eliminó la configuración de la ejecución de práctica del recurso.
- La ejecución de práctica finalizó porque se inició un cambio de zona iniciado por el cliente para el recurso en la zona de disponibilidad desde la que estaba desviando el tráfico el cambio de zona de ejecución de práctica.
- La ejecución de práctica finalizó porque ya no se pudo acceder a una CloudWatch alarma especificada para la configuración de la ejecución de práctica.
- La sesión de práctica finalizó porque una alarma de bloqueo especificada para la sesión de práctica entró en un ALARM estado.
- La ejecución de práctica finalizó por un motivo desconocido.
- La carrera de práctica finalizó porque se inició un cambio automático zonal con prioridad. Consulte Prioridad para ver los cambios zonales.
CAPACITY_CHECK_FAILED: No se pudo comprobar la capacidad equilibrada entre las zonas de disponibilidad para los recursos del grupo de equilibrio de carga y Auto Scaling.
PENDIENTE: la ejecución de práctica está activa (en curso). Aún no hay ningún resultado que mostrar.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Precios

Operaciones de la API