Recuperación de instancias
Para recuperar automáticamente una instancia, cuando ocurre un fallo de comprobación de estado del sistema, puede utilizar la configuración predeterminada de la instancia o crear una alarma de Amazon CloudWatch. Si la instancia es inaccesible debido a un error de hardware subyacente o a un problema que requiera la intervención de AWS para la reparación, puede recuperar automáticamente la instancia.
Una instancia recuperada es idéntica a la instancia original, incluido el ID de instancia, direcciones IP privadas, direcciones IP elásticas y todos los metadatos de la instancia. Si la instancia afectada tiene una dirección IPv4 pública, la conservará luego de la recuperación. Si la instancia deteriorada está en un grupo de ubicación, la instancia recuperada se ejecuta en el grupo de ubicación. Durante la recuperación de la instancia, la instancia se migró como parte de un reinicio de instancia y los datos que hay en la memoria se pierden.
Ejemplos de problemas que requieren recuperación de instancias:
-
Pérdida de conectividad de red
-
Pérdida de potencia del sistema
-
Problemas de software en el host físico
-
Problemas de hardware en el host físico que afectan a la accesibilidad a la red
Temas
Recuperación automática simplificada basada en la configuración de instancias
Las instancias que admiten la recuperación automática simplificada se configuran de forma predeterminada para recuperar una instancia fallida. La configuración predeterminada se aplica a las nuevas instancias que inicia y a las instancias existentes que lanzó anteriormente. La recuperación automática simplificada se inicia en respuesta a errores de comprobación del estado del sistema. La recuperación automática simplificada no se lleva a cabo durante los eventos de Service Health Dashboard ni ningún otro evento que afecte al hardware subyacente. Para obtener más información, consulte Solución de errores de recuperación de instancias.
Cuando falla un evento de recuperación automática simplificado, se le notifica mediante un evento de panel de AWS Health y por email. Cuando falla un evento de recuperación automática simplificado, se le notifica mediante un evento de panel de AWS Health y por email. También, puede utilizar las reglas de Amazon EventBridge para supervisar los eventos de recuperación automática simplificados mediante los siguientes códigos de evento:
-
AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS
: eventos exitosos -
AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE
: eventos fallidos
Para obtener más información, consulte Reglas de Amazon EventBridge.
Requisitos
La recuperación automática simplificada es compatible con una instancia si dichas instancias tienen las siguientes características:
-
Usa la tenencia de instancia
default
odedicated
. -
No usa Elastic Fabric Adapter (EFA).
-
Usa uno de los siguientes tipos de instancias:
-
De uso general: A1 | M3 | M4 | M5 | M5a | M5n | M5zn | M6a | M6g | M6i | M6in | M7a | M7g | M7i | M7i-flex | T1 | T2 | T3 | T3a | T4g
-
Optimizadas para computación: C3 | C4 | C5 | C5a | C5n | C6a | C6g | C6gn | C6i | C6in | C7a | C7g | C7gn | C7i
-
Optimizadas para memoria: R3 | R4 | R5 | R5a | R5b | R5n | R6a | R6g | R6i | R6in | R7a | R7g | R7i | R7iz | u-3tb1 | u-6tb1 | u-9tb1 | u-12tb1 | u-18tb1 | u-24tb1 | X1 | X1e | X2iezn
-
De computación acelerada: G3 | G3s | G5g | Inf1 | P2 | P3 | VT1
-
De computación de alto rendimiento Hpc6a | Hpc7a | Hpc7g
-
-
No tiene volúmenes de almacén de instancias. Si un tipo de instancia Nitro tiene volúmenes de almacén de instancias o si una instancia basada en Xen tiene volúmenes de almacén de instancias asignados en la AMI que se usa, la instancia no se puede recuperar automáticamente.
importante
Si una instancia tiene volúmenes de almacén de instancias asociados, detener e iniciar la instancia provocará la pérdida de los datos de los volúmenes del almacén de instancias. Debería realizar copias de seguridad periódicas de los datos de volumen del almacén de instancias en un almacenamiento más persistente, como Amazon EBS, Amazon S3 o Amazon EFS. En caso de que se produzca un error en la comprobación del estado del sistema, puede detener e iniciar las instancias con los volúmenes del almacén de instancias y, a continuación, restaurar los volúmenes del almacén de instancias con los datos de la copia de seguridad.
Limitaciones
-
Las instancias con volúmenes de almacenes de instancias y tipos de instancias metálicas no son compatibles con la recuperación automática simplificada.
-
La recuperación automática no se inicia para las instancias dentro de un grupo de escalado automático. Si la instancia forma parte de un grupo de Auto Scaling con comprobaciones de estado habilitadas, la instancia se reemplaza cuando deja de funcionar.
-
La recuperación automática simplificada se aplica únicamente a eventos no planificados. No se aplica a los eventos programados.
-
Las instancias terminadas o detenidas no se pueden recuperar.
Establezca el comportamiento de recuperación
Puede establecer el comportamiento de recuperación automática en disabled
o default
después de iniciar la instancia. La configuración predeterminada no permite la recuperación automática simplificada para un tipo de instancia no compatible.
Recuperación basada en acciones de Amazon CloudWatch
Utilice la recuperación basada en acciones de Amazon CloudWatch si desea personalizar cuándo recuperar la instancia.
Cuando se activa la alarma StatusCheckFailed_System
y se inicia la acción de recuperación, se le notifica mediante el tema de Amazon SNS que seleccionó al crear la alarma y la acción de recuperación asociada. Cuando se ha completado la acción de recuperación, la información se publica en el tema de Amazon SNS que haya configurado para la alarma. Cualquier persona que esté suscrita a este tema de Amazon SNS recibirá una notificación por correo electrónico que incluya el estado del intento de recuperación e instrucciones adicionales. Como último paso de la acción de recuperación, la instancia recuperada se reinicia.
Puede utilizar las alarmas de Amazon CloudWatch para recuperar una instancia incluso si la recuperación automática simplificada no está desactivada. Para obtener información acerca de cómo crear una alarma Amazon CloudWatch para recuperar una instancia, consulte Agregar acciones de recuperación a alarmas de Amazon CloudWatch.
Tipos de instancias admitidas
Todos los tipos de instancias que admite la recuperación automática simplificada también son compatibles con la recuperación basada en acciones de Amazon CloudWatch. Además, la recuperación basada en acciones de CloudWatch admite variantes bare metal de los tipos de instancias compatibles. Además de las familias de instancias compatibles con la recuperación automática simplificada, también se admiten las siguientes:
-
Optimizadas para memoria: X2idn | X2iedn
importante
En el caso de los tipos de instancias compatibles que tienen volúmenes de almacén de instancias, los datos de estos volúmenes se perderán durante la recuperación. Si detiene e inicia la instancia, también se perderán los datos del volumen del almacén de instancias. Debería realizar copias de seguridad periódicas de los datos de volumen del almacén de instancias en un almacenamiento más persistente, como Amazon EBS, Amazon S3 o Amazon EFS. En caso de que se produzca un error en la comprobación del estado del sistema, puede detener e iniciar las instancias con los volúmenes del almacén de instancias y, a continuación, restaurar los volúmenes del almacén de instancias con los datos de la copia de seguridad.
La recuperación basada en acciones de CloudWatch no admite la recuperación de instancias con tenencia de hosts dedicados. En el caso de los hosts dedicados de Amazon EC2, puede utilizar la recuperación automática de hosts dedicados para recuperar automáticamente las instancias en mal estado.
Puede utilizar la AWS Management Console o la AWS CLI para ver los tipos de instancias que son compatibles con la recuperación basada en acciones de CloudWatch.
Solución de errores de recuperación de instancias
Los siguientes problemas pueden hacer que la recuperación de la instancia dé error:
-
Durante los eventos del Panel de estado del servicio, es posible que la recuperación automática simplificada no recupere la instancia. Es posible que no reciba notificaciones de error de recuperación de dichos eventos. Cualquier evento del Panel de estado del servicio en curso también puede impedir que la recuperación basada en acciones de CloudWatch recupere correctamente una instancia. Para obtener la información más reciente sobre la disponibilidad del servicio, consulte http://status.aws.amazon.com/
. -
Capacidad temporal insuficiente de hardware de sustitución.
-
La instancia ha alcanzado el límite diario máximo de tres intentos de recuperación.
El proceso de recuperación automático intenta recuperar la instancia de hasta tres errores cada día. Si el error de comprobación del estado del sistema de la instancia persiste, recomendamos que detenga e inicie manualmente la instancia. Los datos almacenados en volúmenes de almacén de instancias se perderán cuando se detenga o termine la instancia. Para obtener más información, consulte Detención e inicio de instancias de Amazon EC2.
La instancia puede ser retirada si la recuperación automática da error y se determina que una degradación de hardware es la causa del error de comprobación de estado del sistema.