Fallo en la implementación multi-AZ - Amazon Redshift

Fallo en la implementación multi-AZ

Su almacenamiento de datos multi-AZ es un conjunto de recursos de computación implementados simultáneamente en dos zonas de disponibilidad. Los recursos de computación implementados en la zona de disponibilidad principal se denominan recursos de computación principales y los de las zonas de disponibilidad secundarias se denominan recursos de computación secundarios. Un almacenamiento de datos multi-AZ puede recuperarse automáticamente sin la intervención del usuario en el caso poco probable, por ejemplo, de que falle una zona de disponibilidad o una infraestructura. El proceso de recuperación implica la conmutación por error de la computación principal a la secundaria y la designación de los recursos de computación secundarios como principales. Además, los nuevos recursos de computación secundarios se aprovisionan en una tercera zona de disponibilidad. El proceso de recuperación automática se mide en términos de RTO y RPO.

  • Objetivo de tiempo de recuperación (RTO) – El tiempo que tarda un sistema en volver a un estado operativo después de un desastre. En otras palabras, el RTO mide el tiempo de inactividad.

  • Objetivo de punto de recuperación (RPO) – La cantidad de datos que se pueden perder (medidos en el tiempo). En el caso de un almacenamiento de datos multi-AZ de Amazon Redshift, el RPO suele ser cero, ya que todos los datos se almacenan en Amazon Redshift Managed Storage (RMS), respaldado por Amazon Simple Storage Service, que es de larga duración y disponibilidad de forma predeterminada.

nota

El rendimiento de una consulta individual no cambiará tras una conmutación por error. El rendimiento general del almacenamiento de datos se reducirá durante un breve período debido a la falta de disponibilidad de los recursos de computación en una de las zonas de disponibilidad. Sin embargo, Amazon Redshift adquirirá automáticamente capacidad en otra zona de disponibilidad para garantizar que se restaure la misma capacidad de procesamiento del almacenamiento de datos.

Además del proceso de recuperación automática, también puede activar este proceso manualmente para su almacenamiento de datos mediante la opción Computación principal de conmutación por error. Puede usar este enfoque para probar cómo ayudaría la opción Multi-AZ a su aplicación para lograr una mayor disponibilidad y mejor continuidad.

  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon Redshift en https://console.aws.amazon.com/redshiftv2/.

  2. Realice una de las acciones siguientes:

    • En el menú de navegación, elija Clusters (Clústeres). En Clusters (Clústeres), elija un clúster. Se abrirá la página de detalles del clúster.

    • En el panel de clústeres, elija un clúster.

  3. En Acciones, elija Computación principal de conmutación por error.

  4. Cuando se le solicite, haga clic en Confirm (Confirmar).

  • En la AWS CLI, use el comando failover-primary-compute de la siguiente manera.

    aws redshift failover-primary-compute --profile maz-test --endpoint-url https://redshift.eu-west-1.amazonaws.com --region eu-west-1 --cluster-identifier test-maz-11

Una vez confirmada la operación anterior, Amazon Redshift realizará los mismos pasos que en una recuperación automática debido a un fallo en una zona de disponibilidad o infraestructura. El proceso hará que los nodos de computación de la zona de disponibilidad principal dejen de estar disponibles y los recursos de computación de la zona de disponibilidad secundaria sean designados como la computación principal. Cuando la recuperación del clúster se complete correctamente, la implementación multi-AZ estará disponible. Su almacenamiento de datos multi-AZ también aprovisionará automáticamente nueva computación en una tercera zona de disponibilidad en cuanto esté disponible.

Durante este proceso, el estado del clúster en la consola se muestra como modificado durante todo el tiempo, ya que el clúster se recupera automáticamente y se vuelve a configurar según la configuración de implementación multi-AZ. El clúster puede aceptar nuevas conexiones inmediatamente. Es posible que se eliminen las conexiones existentes y las consultas en curso. Puede volver a intentarlas inmediatamente.