Comprobaciones de estado de las instancias de Amazon EC2 - Amazon Elastic Compute Cloud

Comprobaciones de estado de las instancias de Amazon EC2

Con el monitoreo de estado de las instancias, puede determinar rápidamente si Amazon EC2 ha detectado algún problema que pudiera impedir a las instancias ejecutar aplicaciones. Amazon EC2 realiza verificaciones automatizadas en cada instancia de EC2 en ejecución para identificar problemas de hardware y de software. Puede ver los resultados de estas comprobaciones de estado para identificar problemas específicos y detectables. Estos datos de estado de eventos aumentan la información que Amazon EC2 ya proporciona acerca del estado previsto de cada instancia (como pending, running y stopping) y las métricas de utilización que Amazon CloudWatch monitoriza (uso de la CPU, tráfico de red y actividad de disco).

Las comprobaciones de estado se realizan cada minuto y devuelven un estado de aprobación o error. Si se superan todas las comprobaciones, el estado general de la instancia es OK (CORRECTO). Si no se supera una o varias comprobaciones, el estado general es impaired (deteriorado). Las comprobaciones de estado están integradas en Amazon EC2, de manera que no se pueden deshabilitar ni eliminar.

Cuando no se supera una comprobación de estado, la métrica de CloudWatch correspondiente a las comprobaciones de estado aumenta. Para obtener más información, consulte Métricas de comprobación de estado. Puede utilizar estas métricas para crear alarmas de CloudWatch que se activen en función del resultado de las comprobaciones de estado. Por ejemplo, puede crear una alarma que le advierta si las comprobaciones de estado fallan en una instancia específica. Para obtener más información, consulte Cree alarmas de CloudWatch para las instancias de Amazon EC2 que no superen las comprobaciones de estado..

También puede crear una alarma de Amazon CloudWatch que monitorice una instancia Amazon EC2 y recupere automáticamente la instancia si su estado se deteriora debido a un problema subyacente. Para obtener más información, consulte Resiliencia de las instancias.

Tipos de comprobaciones de estado

Hay tres tipos de comprobaciones de estado.

Comprobaciones de estado de sistemas

Las comprobaciones de estado del sistema monitorean los sistemas de AWS en los que se ejecuta la instancia. Estas comprobaciones detectan problemas subyacentes con la instancia que requieren la intervención de AWS para su reparación. Cuando una comprobación de estado de sistemas falla, puede elegir esperar a que AWS repare el problema o puede resolverlo por su cuenta. En el caso de las instancias respaldadas por Amazon EBS, puede detener e iniciar la instancia usted mismo, lo que en la mayoría de los escenarios hace que la instancia migre a un nuevo host. Para instancias de Linux respaldadas por un almacén de instancias, puede terminar y reemplazar la instancia. Para las instancias de Windows, el volumen raíz debe ser un volumen de Amazon EBS; no se admite el almacén de instancias para el volumen raíz. Tenga en cuenta que los volúmenes del almacén de instancias son efímeros y que todos los datos se pierden cuando se detiene la instancia.

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado del sistema:

  • Pérdida de conectividad de red

  • Pérdida de potencia del sistema

  • Problemas de software en el host físico

  • Problemas de hardware en el host físico que afectan a la accesibilidad a la red

Si se produce un error en la comprobación del estado de un sistema, aumentamos la métrica StatusCheckFailed_System.

instancias Bare Metal

Si realiza un reinicio desde el sistema operativo en una instancia de Bare Metal, la comprobación del estado del sistema podría devolver temporalmente un estado de error. Cuando la instancia esté disponible, la comprobación de estado del sistema debería devolver un estado de aprobado.

Comprobaciones de estado de instancias

Comprobaciones de estado de instancias: monitoree la configuración de software y de red de la instancia individual. Amazon EC2 verifica el estado de la instancia mediante el envío de una solicitud del protocolo de resolución de direcciones (ARP) a la interfaz de red (NIC). Estas comprobaciones detectan problemas que requieren su implicación para la reparación. Cuando una comprobación de estado de instancias falla, debe resolver el problema por sí mismo (por ejemplo, reiniciando la instancia o realizando cambios en la configuración de la instancia).

nota

Las distribuciones de Linux recientes que utilizan systemd-networkd para la configuración de red pueden informar sobre las comprobaciones de estado de forma diferente a las distribuciones anteriores. Durante el proceso de arranque, este tipo de red puede iniciarse antes y, posiblemente, terminar antes que otras tareas de inicio, lo que también puede afectar al estado de la instancia. Las comprobaciones de estado que dependen de la disponibilidad de la red pueden informar un estado correcto antes de que se completen otras tareas.

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado de la instancia:

  • Error de las comprobaciones de estado del sistema

  • Configuración de red o de inicio incorrecta

  • Memoria agotada

  • Sistema de archivos dañado

  • Kernel incompatible

  • [Instancias de Windows] Durante el reinicio de una instancia o al empaquetar una instancia con respaldo en el almacén de instancias de Windows, una comprobación de estado de la instancia informa de un fallo hasta que la instancia vuelve a estar disponible.

Si se produce un error en la comprobación del estado de una instancia, incrementamos la métrica StatusCheckFailed_Instance.

instancias Bare Metal

Si realiza un reinicio desde el sistema operativo en una instancia de Bare Metal, la comprobación del estado de la instancia podría devolver temporalmente un estado de error. Cuando la instancia esté disponible, la comprobación de estado de la instancia debería devolver un estado de aprobado.

Comprobaciones de estado de EBS adjuntas

Las comprobaciones de estado de EBS adjuntas supervisan si se puede acceder a los volúmenes de Amazon EBS adjuntos a una instancia y completar operaciones de E/S. La métrica StatusCheckFailed_AttachedEBS es un valor binario que indica que hay problemas si uno o varios de los volúmenes de EBS adjuntos a la instancia no pueden completar las operaciones de E/S. Estas comprobaciones de estado detectan problemas subyacentes en la computación o la infraestructura de Amazon EBS. Si la métrica de comprobación de estado de EBS adjunta falla, puede esperar a que AWS resuelva el problema o tomar medidas, como reemplazar los volúmenes afectados o detener y reiniciar la instancia.

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado de EBS adjuntas:

  • Problemas de hardware o software en los subsistemas de almacenamiento subyacentes a los volúmenes de EBS

  • Problemas de hardware en el host físico que afectan a la accesibilidad de los volúmenes de EBS

  • Problemas de conectividad entre la instancia y los volúmenes de EBS

Puede usar la métrica StatusCheckFailed_AttachedEBS para ayudar a mejorar la resiliencia de su carga de trabajo. Puede utilizar esta métrica para crear alarmas de Amazon CloudWatch que se activen en función del resultado de la comprobación de estado. Por ejemplo, puede realizar una conmutación por error en una instancia secundaria o una zona de disponibilidad si detecta un impacto prolongado. Como alternativa, puede supervisar el rendimiento de E/S de cada volumen adjunto mediante las métricas de EBS de CloudWatch para detectar y reemplazar el volumen dañado. Si su carga de trabajo no impulsa la E/S a ninguno de los volúmenes de EBS adjuntos a su instancia y la comprobación de estado de EBS adjunta indica que hay un problema, puede detener e iniciar la instancia para solucionar los problemas con el host físico que están afectando a la accesibilidad de los volúmenes de EBS. Para obtener más información, consulte Métricas de Amazon CloudWatch para Amazon EBS.

También puede configurar sus grupos de Amazon EC2 Auto Scaling para detectar errores de comprobación de estado de EBS adjunto y, a continuación, sustituir la instancia afectada por una nueva. Para obtener más información, consulte el tema Monitor and replace Auto Scaling instances with impaired Amazon EBS volumes en la Guía del usuario de Amazon EC2 Auto Scaling.

nota

La métrica de comprobación de estado de EBS adjunta solo está disponible para las instancias Nitro.