Comprobaciones de estado para sus instancias - Amazon Elastic Compute Cloud

Comprobaciones de estado para sus instancias

Con el monitoreo de estado de las instancias, puede determinar rápidamente si Amazon EC2 ha detectado algún problema que pudiera impedir a las instancias ejecutar aplicaciones. Amazon EC2 realiza verificaciones automatizadas en cada instancia EC2 en ejecución para identificar problemas de hardware y de software. Puede ver los resultados de estas comprobaciones de estado para identificar problemas específicos y detectables. Estos datos de estado de eventos aumentan la información que Amazon EC2 ya proporciona acerca del estado previsto de cada instancia (como pending, running y stopping) y las métricas de utilización que Amazon CloudWatch monitoriza (uso de la CPU, tráfico de red y actividad de disco).

Las comprobaciones de estado se realizan cada minuto y devuelven un estado de aprobación o error. Si se superan todas las comprobaciones, el estado general de la instancia es OK (CORRECTO). Si no se supera una o varias comprobaciones, el estado general es impaired (deteriorado). Las comprobaciones de estado están integradas en Amazon EC2, de manera que no se pueden deshabilitar ni eliminar.

Cuando no se supera una comprobación de estado, la métrica de CloudWatch correspondiente a las comprobaciones de estado aumenta. Para obtener más información, consulte Métricas de comprobación de estado. Puede utilizar estas métricas para crear alarmas de CloudWatch que se activen en función del resultado de las comprobaciones de estado. Por ejemplo, puede crear una alarma que le advierta si las comprobaciones de estado fallan en una instancia específica. Para obtener más información, consulte Crear y editar alarmas de comprobación de estado.

También puede crear una alarma de Amazon CloudWatch que monitorice una instancia Amazon EC2 y recupere automáticamente la instancia si su estado se deteriora debido a un problema subyacente. Para obtener más información, consulte Recuperación de instancias.

Tipos de comprobaciones de estado

Hay tres tipos de comprobaciones de estado.

Comprobaciones de estado de sistemas

Las comprobaciones de estado del sistema monitorean los sistemas de AWS en los que se ejecuta la instancia. Estas comprobaciones detectan problemas subyacentes con la instancia que requieren la intervención de AWS para su reparación. Cuando una comprobación de estado de sistemas falla, puede elegir esperar a que AWS repare el problema o puede resolverlo por su cuenta. En el caso de las instancias respaldadas por Amazon EBS, puede detener e iniciar la instancia usted mismo, lo que en la mayoría de los escenarios hace que la instancia migre a un nuevo host. Para instancias de Linux respaldadas por un almacén de instancias, puede terminar y reemplazar la instancia. Para las instancias de Windows, el volumen raíz debe ser un volumen de Amazon EBS; no se admite el almacén de instancias para el volumen raíz. Tenga en cuenta que los volúmenes del almacén de instancias son efímeros y que todos los datos se pierden cuando se detiene la instancia.

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado del sistema:

  • Pérdida de conectividad de red

  • Pérdida de potencia del sistema

  • Problemas de software en el host físico

  • Problemas de hardware en el host físico que afectan a la accesibilidad a la red

Si se produce un error en la comprobación del estado de un sistema, aumentamos la métrica StatusCheckFailed_System.

Instancias Bare Metal

Si realiza un reinicio desde el sistema operativo en una instancia de Bare Metal, la comprobación del estado del sistema podría devolver temporalmente un estado de error. Cuando la instancia esté disponible, la comprobación de estado del sistema debería devolver un estado de aprobado.

Comprobaciones de estado de instancias

Comprobaciones de estado de instancias: monitoree la configuración de software y de red de la instancia individual. Amazon EC2 verifica el estado de la instancia mediante el envío de una solicitud del protocolo de resolución de direcciones (ARP) a la interfaz de red (NIC). Estas comprobaciones detectan problemas que requieren su implicación para la reparación. Cuando una comprobación de estado de instancias falla, debe resolver el problema por sí mismo (por ejemplo, reiniciando la instancia o realizando cambios en la configuración de la instancia).

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado de la instancia:

  • Error de las comprobaciones de estado del sistema

  • Configuración de red o de inicio incorrecta

  • Memoria agotada

  • Sistema de archivos dañado

  • Durante el reinicio de una instancia o al empaquetar una instancia con respaldo en el almacén de instancias de Windows, una comprobación de estado de la instancia informa de un fallo hasta que la instancia vuelve a estar disponible.

Si se produce un error en la comprobación del estado de una instancia, incrementamos la métrica StatusCheckFailed_Instance.

Instancias Bare Metal

Si realiza un reinicio desde el sistema operativo en una instancia de Bare Metal, la comprobación del estado de la instancia podría devolver temporalmente un estado de error. Cuando la instancia esté disponible, la comprobación de estado de la instancia debería devolver un estado de aprobado.

Comprobaciones de estado de EBS adjuntas

Las comprobaciones de estado de EBS adjuntas supervisan si se puede acceder a los volúmenes de Amazon EBS adjuntos a una instancia y completar operaciones de E/S. La métrica StatusCheckFailed_AttachedEBS es un valor binario que indica que hay problemas si uno o varios de los volúmenes de EBS adjuntos a la instancia no pueden completar las operaciones de E/S. Estas comprobaciones de estado detectan problemas subyacentes en la computación o la infraestructura de Amazon EBS. Si la métrica de comprobación de estado de EBS adjunta falla, puede esperar a que AWS resuelva el problema o tomar medidas, como reemplazar los volúmenes afectados o detener y reiniciar la instancia.

A continuación se muestran ejemplos de problemas que pueden provocar errores en las comprobaciones de estado de EBS adjuntas:

  • Problemas de hardware o software en los subsistemas de almacenamiento subyacentes a los volúmenes de EBS

  • Problemas de hardware en el host físico que afectan a la accesibilidad de los volúmenes de EBS

  • Problemas de conectividad entre la instancia y los volúmenes de EBS

Puede usar la métrica StatusCheckFailed_AttachedEBS para ayudar a mejorar la resiliencia de su carga de trabajo. Puede utilizar esta métrica para crear alarmas de Amazon CloudWatch que se activen en función del resultado de la comprobación de estado. Por ejemplo, puede realizar una conmutación por error en una instancia secundaria o una zona de disponibilidad si detecta un impacto prolongado. Como alternativa, puede supervisar el rendimiento de E/S de cada volumen adjunto mediante las métricas de EBS de CloudWatch para detectar y reemplazar el volumen dañado. Si su carga de trabajo no impulsa la E/S a ninguno de los volúmenes de EBS adjuntos a su instancia y la comprobación de estado de EBS adjunta indica que hay un problema, puede detener e iniciar la instancia para solucionar los problemas con el host físico que están afectando a la accesibilidad de los volúmenes de EBS. Para obtener más información, consulte Métricas de Amazon CloudWatch para Amazon EBS.

nota
  • La métrica de comprobación de estado de EBS adjunta solo está disponible para las instancias Nitro.

  • Puede supervisar la métrica de comprobación de estado de EBS adjunta al crear una alarma de CloudWatch basada en la métrica StatusCheckFailed_AttachedEBS. No puede ver esta comprobación de estado con el comando de la AWS CLI describe-instance-status.

Uso de comprobaciones de estado

Puede usar comprobaciones de estado mediante la consola y las herramientas de línea de comandos, como la AWS CLI.

Ver comprobaciones de estado

Para ver las comprobaciones de estado, use uno de los siguientes métodos:

Console
Para ver comprobaciones de estado
  1. Abra la consola de Amazon EC2 en https://console.aws.amazon.com/ec2/.

  2. En el panel de navegación, seleccione Instances (Instancias).

  3. En la página Instances (Instancias), en la columna Status Checks (Comprobaciones de estado), se indica el estado operativo de cada instancia.

  4. Para ver el estado de una instancia específica, seleccione la instancia y, a continuación, elija la pestaña Estado y alarmas.

    
                                            Consulte las comprobaciones del estado de la instancia en la pestaña Estado y alarmas.

    Si la instancia tiene una comprobación de estado fallida, normalmente debe solucionar el problema por su cuenta (por ejemplo: al reiniciar la instancia o realizar cambios en la configuración de la instancia).

  5. Para revisar las métricas de CloudWatch sobre las comprobaciones de estado, en la pestaña Estado y alarmas, amplíe Métricas para ver los gráficos de las siguientes métricas:

    • Comprobación de estado no superada para el sistema

    • Comprobación de estado no superada para la instancia

    Para obtener más información, consulte Métricas de comprobación de estado.

Command line

Para ver las comprobaciones de estado de las instancias de ejecución, puede utilizar el comando describe-instance-status (AWS CLI).

Para ver el estado de todas las instancias, utilice el siguiente comando.

aws ec2 describe-instance-status

Para obtener el estado de todas las instancias con un estado impaired, use el siguiente comando.

aws ec2 describe-instance-status \ --filters Name=instance-status.status,Values=impaired

Para obtener el estado de una única instancia, use el siguiente comando.

aws ec2 describe-instance-status \ --instance-ids i-1234567890abcdef0

También puede usar los siguientes comandos:

Crear y editar alarmas de comprobación de estado

Puede utilizar las métricas de comprobación de estado para crear alarmas de CloudWatch que le avisen cuando una instancia no haya superado la comprobación de estado.

Para crear una alarma de comprobación de estado, use uno de los siguientes métodos:

Console

Utilice el procedimiento siguiente para configurar una alarma que le envíe una notificación por correo electrónico o detenga, termine o recupere una instancia cuando no haya superado una comprobación de estado.

Para crear una alarma de comprobación de estado
  1. Abra la consola de Amazon EC2 en https://console.aws.amazon.com/ec2/.

  2. En el panel de navegación, seleccione Instances (Instancias).

  3. Seleccione la instancia, elija la pestaña Status Checks (Comprobaciones de estado), seleccione Actions (Acciones) y haga clic en Create status check alarm (Crear alarma de comprobación de estado).

  4. En la página Manage CloudWatch alarms (Administrar alarmas de CloudWatch), en Add or edit alarm (Agregar o editar alarma), elija Create an alarm (Crear una alarma).

  5. En Alarm notification (Notificación de alarma), active la opción para configurar las notificaciones de Amazon Simple Notification Service (Amazon SNS). Seleccione un tema de Amazon SNS existente o escriba un nombre para crear un nuevo tema.

    Si agrega una dirección de correo electrónico a la lista de destinatarios o crea un tema nuevo, Amazon SNS envía un correo electrónico de confirmación de suscripción a cada dirección nueva. Cada destinatario debe confirmar la suscripción seleccionando el enlace incluido en ese mensaje. Las notificaciones de alertas solo se envían a direcciones confirmadas.

  6. En Alarm action (Acción de la alarma), active la opción para especificar la acción que debe llevarse a cabo cuando se active la alarma. Seleccione la acción.

  7. En Alarm thresholds (Umbrales de alarma), especifique la métrica y los criterios para la alarma.

    Puede dejar la configuración predeterminada de Group samples by (Average) (Agrupar muestras por [Promedio]) y Type of data to sample (Status check failed:either) (Tipo de datos para muestra [Comprobación de estado no superada: cualquiera]), o bien cambiarla para que se adapte a sus necesidades.

    En Consecutive Period (Periodo consecutivo), establezca el número de periodos a evaluar y, en Period (Periodo), especifique la duración del periodo de evaluación antes de que se active la alarma y se envíe un correo electrónico.

  8. (Opcional) En Sample metric data (Muestrear datos de métrica), elija Add to dashboard (Agregar al panel).

  9. Seleccione Crear.

Si necesita realizar cambios a una alarma de estado de instancia, puede editarla.

Para editar una alarma de comprobación de estado
  1. Abra la consola de Amazon EC2 en https://console.aws.amazon.com/ec2/.

  2. En el panel de navegación, seleccione Instances (Instancias).

  3. Seleccione la instancia y elija Actions (Acciones), Monitoring (Monitoreo), Manage CloudWatch alarms (Administrar alarmas de CloudWatch).

  4. En la página Manage CloudWatch alarms (Administrar alarmas de CloudWatch), en Add or edit alarm (Agregar o editar alarma), elija Edit an alarm (Editar una alarma).

  5. En Search for alarm (Buscar alarma), elija la alarma.

  6. Cuando termine de realizar los cambios, elija Update (Actualizar).

Command line

En el siguiente ejemplo, la alarma publica una notificación a un tema de SNS, arn:aws:sns:us-west-2:111122223333:my-sns-topic, cuando la instancia no supera la comprobación de instancia o la comprobación de estado de sistema durante al menos dos periodos consecutivos. La metríca de CloudWatch utilizada es StatusCheckFailed.

Para crear una alarma de comprobación de estado mediante la AWS CLI
  1. Seleccione un tema de SNS existente o cree uno nuevo. Para obtener más información, consulte Utilización de AWS CLI con Amazon SNS en la Guía del usuario de AWS Command Line Interface.

  2. Utilice el siguiente comando list-metrics para ver las métricas de Amazon CloudWatch disponibles para Amazon EC2:

    aws cloudwatch list-metrics --namespace AWS/EC2
  3. Use el siguiente comando put-metric-alarm para crear la alarma:

    aws cloudwatch put-metric-alarm \ --alarm-name StatusCheckFailed-Alarm-for-i-1234567890abcdef0 \ --metric-name StatusCheckFailed \ --namespace AWS/EC2 \ --statistic Maximum \ --dimensions Name=InstanceId,Value=i-1234567890abcdef0 \ --unit Count \ --period 300 \ --evaluation-periods 2 \ --threshold 1 \ --comparison-operator GreaterThanOrEqualToThreshold \ --alarm-actions arn:aws:sns:us-west-2:111122223333:my-sns-topic

    El periodo del intervalo de tiempo, en segundo, durante el que se recopilan métricas de Amazon CloudWatch. Este ejemplo utiliza 300, que es igual a 60 segundos multiplicados por 5 minutos. El periodo de evaluación es el número de periodos consecutivos durante los que se debe comparar el valor de la métrica con el umbral. En este ejemplo se utiliza 2. Las acciones de alarma son las acciones que se realizan cuando se activa esta alarma. Este ejemplo configura la alarma para enviar un correo electrónico mediante Amazon SNS.