Prácticas recomendadas al configurar el cambio automático zonal - Controlador de recuperación de aplicaciones de Amazon Route 53

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas al configurar el cambio automático zonal

Tenga en cuenta las siguientes prácticas recomendadas y consideraciones al habilitar el cambio automático zonal en Amazon Route 53 Application Recovery Controller.

El cambio automático zonal incluye dos tipos de cambios de tráfico: los cambios automáticos y los turnos zonales de práctica.

  • Con el cambio automático, AWS ayuda a reducir el tiempo de recuperación al desviar el tráfico de recursos de las aplicaciones desde una zona de disponibilidad durante los eventos, en su nombre.

  • Con las carreras de práctica, Route 53 ARC inicia un cambio zonal en tu nombre. El cambio zonal desplaza el tráfico de una zona de disponibilidad hacia un recurso y viceversa, con una cadencia semanal. Las ejecuciones de práctica le ayudan a asegurarse de que ha escalado verticalmente la capacidad suficiente para las zonas de disponibilidad de una región como para que su aplicación tolere la pérdida de una zona de disponibilidad.

Hay varias prácticas recomendadas y consideraciones que se deben tener en cuenta con los cambios automáticos y las sesiones de práctica. Revise los siguientes temas antes de habilitar un cambio automático de zona o configurar ejecuciones de práctica para un recurso.

Temas

Limite el tiempo que los clientes permanecen conectados a sus terminales

Cuando el controlador de recuperación de aplicaciones Amazon Route 53 desvía el tráfico de una zona afectada, por ejemplo, mediante el cambio zonal o el cambio automático zonal, el mecanismo que utiliza Route 53 ARC para mover el tráfico de las aplicaciones es una actualización de DNS. Una actualización del DNS provoca que todas las conexiones nuevas se dirijan lejos de la ubicación dañada. Sin embargo, los clientes con conexiones abiertas preexistentes pueden seguir realizando solicitudes a la ubicación dañada hasta que los clientes se vuelvan a conectar. Para garantizar una recuperación rápida, le recomendamos que limite el tiempo que los clientes permanecen conectados a sus terminales.

Si usa un Application Load Balancer, puede usar la keepalive opción para configurar la duración de las conexiones. Le sugerimos que reduzca el keepalive valor para ajustarlo al objetivo de tiempo de recuperación de su aplicación, por ejemplo, 300 segundos. Cuando elija una keepalive hora, tenga en cuenta que este valor es una compensación entre volver a conectarse con más frecuencia, en general, lo que puede afectar a la latencia, y alejar más rápidamente a todos los clientes de una zona de disponibilidad o región con problemas.

Para obtener más información sobre cómo configurar la keepalive opción para Application Load Balancer, consulte la duración del mantenimiento del cliente HTTP en la Guía del usuario del Application Load Balancer.

Redimensiona la capacidad de tus recursos y prueba los cambios de tráfico

Cuando se AWS desplaza el tráfico de una zona de disponibilidad a un cambio zonal o automático, es importante que las zonas de disponibilidad restantes puedan atender las crecientes tasas de solicitud de su recurso. Este patrón se conoce como estabilidad estática. Para obtener más información, consulte el documento técnico Estabilidad estática con zonas de disponibilidad en la Amazon Builder’s Library.

Por ejemplo, si la aplicación necesita 30 instancias para atender a sus clientes, debe aprovisionar 15 instancias en tres zonas de disponibilidad, para un total de 45 instancias. De este modo, cuando el tráfico se AWS desplaza fuera de una zona de disponibilidad (con un cambio automático o durante una sesión de práctica),AWS podrá seguir atendiendo a los clientes de su aplicación con el total restante de 30 instancias, distribuidas en dos zonas de disponibilidad.

La capacidad de cambio automático zonal de Route 53 ARC le ayuda a recuperarse rápidamente de AWS los eventos en una zona de disponibilidad cuando tiene una aplicación con recursos que están preescalados para funcionar normalmente con la pérdida de una zona de disponibilidad. Antes de habilitar el cambio automático de zona para un recurso, escale la capacidad del recurso en todas las zonas de disponibilidad configuradas de una Región de AWS. A continuación, inicie los cambios de zona del recurso para comprobar que la aplicación sigue funcionando con normalidad cuando el tráfico se desvíe de una zona de disponibilidad.

Después de realizar la prueba con cambios de zona, habilite el cambio automático de zona y configure las ejecuciones de práctica para los recursos de la aplicación. Las ejecuciones de práctica periódicas con cambio automático de zona le ayudan a asegurarse, de forma continua, de que su capacidad sigue escalándose de forma adecuada. Con suficiente capacidad en todas las zonas de disponibilidad, la aplicación puede seguir atendiendo a los clientes, sin interrupciones, durante un cambio automático.

Para obtener más información sobre cómo iniciar un cambio de zona de un recurso, consulte Cambio de zona en el controlador de recuperación de aplicaciones de Amazon Route 53.

Tenga en cuenta los tipos y las restricciones de los recursos

El cambio automático de zona permite desviar el tráfico de una zona de disponibilidad de todos los recursos compatibles con el cambio de zona. En general, son compatibles los equilibradores de carga de red y los equilibradores de carga de aplicación con el equilibrador de carga de varias zonas desactivado. En algunas situaciones específicas de recursos, el cambio automático de zona no desvía el tráfico de una zona de disponibilidad para un cambio automático.

Por ejemplo, si los grupos de destino del equilibrador de carga de las zonas de disponibilidad no tienen ninguna instancia o si todas las instancias tienen un estado incorrecto, el equilibrador de carga se encuentra en un estado de apertura por error. Si se AWS inicia un cambio automático para un balanceador de cargas en este escenario, el cambio automático no cambia las zonas de disponibilidad que usa el balanceador de cargas porque el balanceador de cargas ya está en un estado de apertura por error. Este es el comportamiento esperado. El cambio automático no puede provocar que una zona de disponibilidad esté en mal estado y desviar el tráfico a las demás zonas de disponibilidad Región de AWS si todas las zonas de disponibilidad se abren por error (en mal estado).

Un segundo escenario es si se AWS inicia un cambio automático para un Application Load Balancer que es un punto final para un acelerador de entrada. AWS Global Accelerator Al igual que con el cambio de zona, el cambio automático no es compatible con los equilibradores de carga de aplicación, que son los puntos de conexión de los aceleradores de Global Accelerator.

Para obtener más información sobre los recursos compatibles, incluidos todos los requisitos y excepciones que debe tener en cuenta, consulte Recursos compatibles para el cambio de zona y el cambio automático de zona.

Especifique las alarmas para las sesiones de práctica

Se configura al menos una alarma (la alarma de resultado) para las carreras de práctica con cambio automático zonal. De forma opcional, también puedes configurar una segunda alarma, la alarma de bloqueo.

Al considerar las CloudWatch alarmas que configura para las ejecuciones de práctica de su recurso, tenga en cuenta lo siguiente:

  • Para la alarma de resultado, que es obligatoria, le recomendamos que configure una CloudWatch alarma para que pase a un ALARM estado en el que las métricas del recurso o de la aplicación indiquen que desplazar el tráfico fuera de la zona de disponibilidad afecta negativamente al rendimiento. Por ejemplo, puede determinar un umbral para las tasas de solicitud de un recurso y, a continuación, configurar una alarma para que pase a un estado de ALARM cuando se supere dicho umbral. Es responsable de configurar una alarma adecuada que origine que AWS finalice la ejecución de práctica y devuelva un resultado de FAILED.

  • Le recomendamos que siga el AWS Well Architected Framework, que recomienda implementar indicadores clave de rendimiento (KPI) como CloudWatch alarmas. Si lo hace, puede usar estas alarmas para crear una alarma compuesta que sirva como desencadenador de seguridad y evitar que se inicien ejecuciones de práctica en el caso de que pudieran impedir que la aplicación no cumpliera con un KPI. Cuando la alarma deja de estar en el estado de ALARM, Route 53 ARC inicia las ejecuciones de práctica la próxima vez que se programe una ejecución de práctica para el recurso.

  • En el caso de la alarma de bloqueo de ejecuciones de práctica, si decide configurarla, puede optar por realizar un seguimiento de una métrica específica que utilice para indicar que no desea que comience una ejecución de práctica.

  • Para practicar la ejecución de alarmas, debe especificar el nombre de recurso de Amazon (ARN) para cada alarma, que primero debe configurar en Amazon. CloudWatch Las CloudWatch alarmas que especifique pueden ser alarmas compuestas, lo que le permitirá incluir varias métricas y comprobaciones para su aplicación y recurso que puedan activar la alarma para que pase a un ALARM estado. Para obtener más información, consulta Combinación de alarmas en la Guía del CloudWatch usuario de Amazon.

  • Asegúrese de que las CloudWatch alarmas que especifique para las ejecuciones de práctica estén en la misma región que el recurso para el que está configurando una ejecución de práctica.

Evalúa los resultados de las sesiones de práctica

Route 53 ARC informa de un resultado para cada ejecución de práctica. Después de una sesión de práctica, evalúa el resultado y determina si necesitas tomar medidas. Por ejemplo, es posible que necesite ampliar la capacidad o ajustar la configuración de una alarma.

A continuación se muestran los posibles resultados de las ejecuciones de práctica:

  • CORRECTO: la alarma de resultado no entró en ningún estado de ALARM durante la ejecución de práctica, y la ejecución de práctica llevó a cabo el periodo de prueba completo de 30 minutos.

  • ERROR: la alarma de resultado entró en un estado de ALARM durante la ejecución de práctica.

  • INTERRUMPIDA: la ejecución de práctica finalizó por un motivo distinto al de la alarma de resultado al entrar en un estado de ALARM. Una ejecución de práctica puede interrumpirse por varios motivos. Entre ellos, se incluyen los siguientes:

    • La práctica finalizó porque se AWS inició un cambio automático en la región Región de AWS o se produjo una situación de alarma en la región.

    • La ejecución de práctica finalizó porque se eliminó la configuración de la ejecución de práctica del recurso.

    • La ejecución de práctica finalizó porque se inició un cambio de zona iniciado por el cliente para el recurso en la zona de disponibilidad desde la que estaba desviando el tráfico el cambio de zona de ejecución de práctica.

    • La ejecución de práctica finalizó porque ya no se puede acceder a una CloudWatch alarma especificada para la configuración de la ejecución de práctica.

    • La ejecución de práctica finalizó porque la alarma de bloqueo especificada para la ejecución de práctica entró en un estado de ALARM.

    • La ejecución de práctica finalizó por un motivo desconocido.

  • PENDIENTE: la ejecución de práctica está activa (en curso). Aún no hay ningún resultado que mostrar.