Planos de control y planos de datos - Patrones de resiliencia de Multi-AZ avanzados

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Planos de control y planos de datos

Antes de analizar los patrones reales que se pueden utilizar para realizar una evacuación de una zona de disponibilidad, debemos analizar los conceptos de planos de control y planos de datos. AWS hace una distinción entre planos de control y planos de datos en nuestros servicios. Los planos de control son la maquinaria necesaria para realizar cambios en un sistema (añadir recursos, eliminar recursos, modificar recursos) y hacer que esos cambios se propaguen donde sea necesario para que surtan efecto, por ejemplo, para actualizar la configuración de red de un ALB o crear una función de AWS Lambda.

Los planos de datos son la función principal de esos recursos, por ejemplo, la ejecución de la instancia EC2 o la obtención de elementos de una tabla de Amazon DynamoDB o su colocación en ella. Para ver un análisis más detallado de los planos de control y los planos de datos, consulte Estabilidad estática con zonas de disponibilidad y Límites de aislamiento de errores de AWS.

A efectos de este documento, tenga en cuenta que los planos de control suelen tener más partes móviles y dependencias que los planos de datos. Esto hace que sea estadísticamente más probable que el plano de control se deteriore en comparación con el plano de datos. Esto es especialmente importante en el caso de los servicios que proporcionan AZI como, por ejemplo, Amazon EC2 y EBS, ya que algunas partes de estos servicios tienen planos de control que también son independientes de la zona y pueden verse afectados durante un evento de zona de disponibilidad única.

Si bien las acciones del plano de control se pueden utilizar para realizar la evacuación de una zona de disponibilidad, según la información anterior, es posible que tengan menos probabilidades de éxito, especialmente en un evento de error. Para aumentar la probabilidad de mitigar el impacto con éxito, puede utilizar dos patrones diferentes. El primer patrón se basa únicamente en las acciones del plano de datos para mitigar inicialmente el impacto al evitar que el trabajo se enrute o impedir que el trabajo se ejecute en la zona de disponibilidad afectada. El segundo patrón consiste en actualizar la configuración de los recursos con acciones del plano de control para evitar que se aprovisione capacidad en la zona de disponibilidad afectada y detener la comunicación entre zonas de disponibilidad con esa zona de disponibilidad.

Los patrones de recuperación que se describen en esta sección son como interruptores generales. Son los mecanismos que se utilizan para tomar medidas a gran escala con rapidez, como tirar de un cable Andon en una cadena de montaje. Suponen que las cargas de trabajo han probado estrategias como volver a intentarlo con un retroceso exponencial con fluctuaciones en el código para superar los errores transitorios. Esto significa que cuando se detecta un impacto aislado en una zona de disponibilidad, sus efectos en la disponibilidad o la latencia son lo suficientemente graves como para que sea necesario evacuar la zona de disponibilidad para mitigarlos de forma eficaz.