Uso de alarmas de Amazon CloudWatch - Amazon: CloudWatch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de alarmas de Amazon CloudWatch

Puede crear alarmas de métricas y alarmas compuestas en CloudWatch.

  • Una alarma de métrica vigila una única CloudWatch métrica o el resultado de una expresión matemática basada en CloudWatch métricas. La alarma realiza una o varias acciones según el valor de la métrica o expresión con respecto a un umbral durante varios períodos de tiempo. La acción puede ser enviar una notificación a un Amazon SNS tema de , realizar una Amazon EC2 acción o una acción Auto Scaling o crear un Administrador de sistemas OpsItem.

  • Una alarma compuesta incluye una expresión de regla que tiene en cuenta los estados de alarma de otras alarmas que haya creado. La alarma compuesta entra en estado ALARM solo si se cumplen todas las condiciones de la regla. Las alarmas especificadas en la expresión de regla de una alarma compuesta pueden incluir alarmas de métricas y otras alarmas compuestas.

    El uso de alarmas compuestas puede reducir el ruido de las alarmas. Puede crear varias alarmas de métricas, así como crear una alarma compuesta y configurar alertas solo para la alarma compuesta. Por ejemplo, una alarma compuesta podría entrar en estado ALARM solo cuando todas las alarmas de métricas subyacentes estén en estado ALARM.

    Las alarmas compuestas pueden enviar Amazon SNS notificaciones cuando cambian de estado y pueden crear Administrador de sistemas OpsItems cuando pasan al estado ALARM, pero no pueden realizar acciones de EC2 o Auto Scaling acciones de .

Puede agregar alarmas a paneles de CloudWatch y monitorizarlas visualmente. Cuando una alarma está en un panel, se vuelve de color rojo cuando está en el estado ALARM, lo que facilita la monitorización de su estado de forma proactiva.

Una alarma invoca acciones solo cuando la alarma cambia de estado. La excepción son las alarmas con acciones Auto Scaling. Para las acciones Auto Scaling, la alarma sigue invocando la acción una vez por minuto de que la alarma permanece en el nuevo estado.

nota

CloudWatch no prueba o valida las acciones que especifique, ni detecta ningún error de Amazon EC2 Auto Scaling o Amazon SNS derivado de un intento de invocar acciones inexistentes. Asegúrese de que las acciones de alarma existan.

Estados de las alarmas de métricas

Una alarma de métrica tiene los siguientes estados posibles:

  • OK –: la métrica o expresión está dentro del umbral definido.

  • ALARM –: la métrica o expresión está fuera del umbral definido.

  • INSUFFICIENT_DATA –: la alarma acaba de iniciarse, la métrica no está disponible o no hay suficientes datos disponibles en la métrica para determinar el estado de la alarma.

Evaluación de una alarma

Cuando crea una alarma, especifica tres valores para habilitar CloudWatch para evaluar cuándo cambiar el estado de la alarma:

  • Period (Período) es la duración de tiempo para evaluar la métrica o expresión para crear cada punto de datos individual para una alarma. Se expresa en segundos. Si elige un minuto como período, la alarma evalúa la métrica una vez por minuto.

  • Evaluation Periods (Períodos de evaluación) es el número de los periodos o puntos de datos más recientes que evaluar a la hora de determinar el estado de alarma.

  • Datapoints to Alarm (Puntos de datos para alarma) es el número de puntos de datos dentro de los Evaluation Periods (Períodos de evaluación) que deben estar fuera del umbral para que la alarma pase al ALARM estado . Los puntos de datos fuera del umbral no tienen que ser consecutivos; solo deben estar dentro de la última cantidad de puntos de datos igual a Evaluation Period (Periodo de evaluación).

En la siguiente figura, el umbral de alarma de una métrica de alarma está definido en tres unidades. Evaluation Period (Periodo de evaluación) y Datapoints to Alarm (Puntos de datos para alarma) son 3. Es decir, cuando los puntos de datos existentes en los últimos tres periodos consecutivos superan el umbral, la alarma pasa al ALARM estado . En la figura, esto sucede en los periodos de tiempo del tercero al quinto. En el sexto periodo, el valor cae por debajo del umbral, por lo que uno de los periodos que se evalúa no se incumple y el estado de alarma cambia a OK. Durante el noveno periodo de tiempo, el umbral se incumple de nuevo, pero solo para un periodo. Por lo tanto, el estado de la alarma se mantiene OK.


        Alarma de disparador de umbral de alarma

Al configurar Evaluation Periods (Períodos de evaluación) y Datapoints to Alarm (Puntos de datos para alarma) como valores diferentes, está configurando una alarma "M de N". Puntos de datos para alarma es ("M") y Períodos de evaluación es ("N"). El intervalo de evaluación es el número de puntos de datos multiplicado por el periodo. Por ejemplo, si configura 4 de 5 puntos de datos con un periodo de 1 minuto, el intervalo de evaluación es de 5 minutos. Si configura 3 de 3 puntos de datos con un periodo de 10 minutos, el intervalo de evaluación es de 30 minutos.

nota

Si faltan puntos de datos poco después de crear una alarma y la métrica se estaba notificando a CloudWatch antes de crear la alarma, CloudWatch recupera los puntos de datos más recientes antes de que se creara la alarma a la hora de evaluar la alarma.

Configurar cómo tratan las alarmas de CloudWatch los datos que faltan

En ocasiones, no todos los puntos de datos esperados para una métrica se notifican a CloudWatch. Por ejemplo, esto puede ocurrir cuando se pierde una conexión, un servidor deja de funcionar o cuando una métrica indica datos solo de forma intermitente por diseño.

CloudWatch le permite especificar cómo tratar los puntos de datos que faltan a la hora de evaluar una alarma. Esto le ayuda a configurar la alarma para que pase al ALARM estado solo cuando sea adecuado para el tipo de datos que se monitorizan. Puede evitar falsos positivos cuando los datos que faltan no indican un problema.

De forma similar al modo en que cada alarma siempre está en uno de los tres estados, cada punto de datos específico notificado a CloudWatch entra dentro de una de las tres categorías:

  • Sin infracción (dentro del umbral)

  • Con infracción (se infringe el umbral)

  • Ausente

Para cada alarma, puede especificar que CloudWatch trate los puntos de datos que faltan de las siguientes maneras:

  • notBreaching – Los puntos de datos que faltan se tratan como "buenos" y dentro del umbral,

  • breaching – Los puntos de datos que faltan se tratan como "malos" y infringen el umbral

  • ignore –: se mantiene la alarma actual

  • missing – Si faltan todos los puntos de datos en el rango de evaluación de alarma, la alarma pasa a INSUFFICIENT_DATA.

La mejor opción depende del tipo de métrica. Para una métrica que notifica datos de forma continua como, por ejemplo, CPUUtilization de una instancia, es posible que desee tratar los puntos de datos que faltan como breaching, ya que pueden indicar que algo va mal. Sin embargo, para una métrica que genera puntos de datos solo cuando se produce un error, como ThrottledRequests en Amazon DynamoDB, es recomendable que trate los datos que faltan como notBreaching. El comportamiento predeterminado es missing.

Elegir la mejor opción para su alarma evita cambios innecesarios y confusos en la condición de alarma y además indica con mayor precisión el estado de su sistema.

Cómo se evalúa el estado de alarma cuando faltan datos

Cada vez que una alarma evalúa si cambiar de estado, CloudWatch intenta recuperar un número mayor de puntos de datos que el número especificado como Evaluation Periods (Períodos de evaluación). El número exacto de puntos de datos que intenta recuperar depende de la duración del periodo de alarma y de si se basa en una métrica con resolución estándar o con alta resolución. El plazo de los puntos de datos que intenta recuperar es el rango de evaluación.

Una vez que CloudWatch recupera estos puntos de datos, ocurre lo siguiente:

  • Si no falta ningún punto de datos en el rango de evaluación, CloudWatch evalúa la alarma en función de los puntos de datos más recientes. El número de puntos de datos evaluado es igual a los Evaluation Periods (Períodos de evaluación) de la alarma. Los puntos de datos adicionales que están más atrás en el rango de evaluación no son necesarios y se omiten.

  • Si faltan algunos puntos de datos en el rango de evaluación, pero el número total de puntos de datos existentes que se recuperaron correctamente del rango de evaluación es igual o superior a los Evaluation Periods (Períodos de evaluación) de la alarma, evalúa el estado de la alarma en función de los puntos de datos reales más recientes que se recuperaron correctamente, incluidos los puntos de datos adicionales necesarios más antiguos CloudWatchen el rango de evaluación. En este caso, el valor que establezca acerca de cómo tratar los datos que faltan no es necesario y no se tiene en cuenta.

  • Si faltan algunos puntos de datos en el rango de evaluación y el número de puntos de datos reales recuperados es menor que el número de Evaluation Periods (Períodos de evaluación) de la alarma, CloudWatch rellena los puntos de datos que faltan con el resultado especificado sobre cómo tratar los datos que faltan y, a continuación, evalúa la alarma. Sin embargo, todos los puntos de datos reales en el rango de evaluación se incluyen en la evaluación. CloudWatch utiliza los puntos de datos que faltan solo el menor número de veces posible.

nota

Un caso concreto de este comportamiento es que las alarmas de CloudWatch pueden a evaluar una y otra vez el último conjunto de puntos de datos durante un período de tiempo después de que la métrica ha dejado de fluir. Esta reevaluación puede provocar que la alarma cambie de estado y que se vuelvan a ejecutar acciones, si cambió de estado inmediatamente antes de detenerse el flujo de la métrica. Para mitigar este comportamiento, utilice períodos más cortos.

Las tablas siguientes muestran ejemplos del comportamiento de evaluación de alarma. En la primera tabla, Datapoints to Alarm (Puntos de datos para alarma) y Evaluation Periods (Períodos de evaluación) son ambos 3. CloudWatch recupera los 5 puntos de datos más recientes a la hora de evaluar la alarma, en caso de que falten algunos de los 3 puntos de datos más recientes. 5 es el rango de evaluación de la alarma.

La columna 1 muestra los cinco puntos de datos más recientes, ya que el rango de evaluación es 5. Estos puntos de datos se muestran con el punto de datos más reciente a la derecha. 0 es un punto de datos sin infracción, X es un punto de datos con infracción y - es un punto de datos que falta.

En la columna 2 se indica cuántos de los tres puntos de datos necesarios faltan. Aunque se evalúan los cinco puntos de datos más recientes, solo 3 (el valor de Evaluation Periods) son necesarios para evaluar el estado de alarma. El número de puntos de datos de la columna 2 es el número de puntos de datos que deben completarse, utilizando la configuración de cómo se tratan los datos que faltan.

En las columnas 3-6, los encabezados de columna son los posibles valores de cómo tratar los datos que faltan. Las filas de estas columnas muestran el estado de alarma que se establece para cada una de estas posibles formas de tratar los datos que faltan.

Puntos de datos Número de puntos de datos que deben rellenarse AUSENTE IGNORE INFRACCIÓN SIN INFRACCIÓN

0 - X - X

0

OK

OK

OK

OK

- - - - 0

2

OK

OK

OK

OK

- - - - -

3

INSUFFICIENT_DATA

Mantener el estado actual

ALARM

OK

0 X X - X

0

ALARM

ALARM

ALARM

ALARM

- - X - -

2

ALARM

Retain current state

ALARM

OK

En la segunda fila de la tabla anterior, la alarma permanece OK incluso si los datos que faltan se tratan como infracción, ya que uno de los puntos de datos existente no se incumple y esto se evalúa junto con los dos puntos de datos que faltan que se tratan como infracción. La próxima vez que se evalúe esta alarma, si siguen faltando los datos pasará a ALARM, ya que el punto de datos sin infracción ya no estará en el rango de evaluación.

La tercera fila, en la que faltan los cinco puntos de datos más recientes, ilustra cómo los distintos ajustes de cómo tratar los datos que faltan afectan al estado de alarma. Si los puntos de datos que faltan se consideran infracción, la alarma pasa al estado ALARM, mientras que si se consideran no infracción, la alarma pasa al estado OK. Si se omiten los puntos de datos que faltan, la alarma conserva el estado actual que tenía antes de los puntos de datos que faltan. Y si los puntos de datos que faltan se consideran faltantes, la alarma no tiene suficientes datos reales recientes para realizar una evaluación y pasa a INSUFFICIENT_DATA.

En la cuarta fila, la alarma pasa al ALARM estado en todos los casos porque los tres puntos de datos más recientes se infringen y los Evaluation Periods (Períodos de evaluación) y Datapoints to Alarm (Puntos de datos para alarma) de la alarma se establecen en 3. En este caso, el punto de datos que falta se omite y no es necesario configurar cómo evaluar los datos que faltan, ya que hay 3 puntos de datos reales que evaluar.

La fila 5 representa un caso especial de evaluación de alarma llamado estado de alarma prematura. Para obtener más información, consulte Evitar transiciones precozes al estado de alarma.

En la siguiente tabla, el Period (Periodo) se vuelve a establecer en 5 minutos y Datapoints to Alarm (Puntos de datos para alarma) es solo 2 mientras que Evaluation Periods (Períodos de evaluación) es 3. Se trata de una alarma 2 de 3, M de N.

El rango de evaluación es 5. Este es el número máximo de puntos de datos recientes que se recuperan y que se pueden utilizar en caso de que falten algunos.

Puntos de datos Cantidad de los puntos de datos que faltan AUSENTE IGNORE INFRACCIÓN SIN INFRACCIÓN

0 - X - X

0

ALARM

ALARM

ALARM

ALARM

0 0 X 0 X

0

ALARM

ALARM

ALARM

ALARM

0 - X - -

1

OK

OK

ALARM

OK

- - - - 0

2

OK

OK

ALARM

OK

- - - - X

2

ALARM

Mantener el estado actual

ALARM

OK

En las filas 1 y 2, la alarma siempre pasa al estado ALARM porque se infringen dos de los tres puntos de datos más recientes. En la fila 2, no se necesitan los dos puntos de datos más antiguos del rango de evaluación porque ninguno de los tres puntos de datos más recientes faltan, por lo que se ignoran estos dos puntos de datos más antiguos.

En las filas 3 y 4, la alarma pasa al estado ALARM solo si los datos que faltan se tratan como infracción, en cuyo caso los dos puntos de datos que faltan más recientemente se tratan como infracción. En la fila 4, estos dos puntos de datos que faltan que se tratan como infracción proporcionan los dos puntos de datos infracción necesarios para activar el estado ALARM.

La fila 5 representa un caso especial de evaluación de alarma llamado estado de alarma prematura. Para obtener más información, consulte la siguiente sección.

Evitar transiciones precozes al estado de alarma

CloudWatch La evaluación de alarmas de incluye lógica para intentar evitar falsas alarmas, donde la alarma entra en estado ALARM de forma prematura cuando los datos son intermitentes. El ejemplo que se muestra en la fila 5 de las tablas de la sección anterior ilustra esta lógica. En esas filas y en los siguientes ejemplos, Evaluation Periods (Períodos de evaluación) es 3 y el rango de evaluación es 5 puntos de datos. Puntos de datos para alarma es 3, excepto para el ejemplo M de N, donde Puntos de datos para alarma es 2.

Supongamos que los datos más recientes de una alarma son - - - - X, con cuatro puntos de datos que faltan y, a continuación, un punto de datos que se infringe como punto de datos más reciente. Debido a que el siguiente punto de datos puede no estar en infracción, la alarma no pasa inmediatamente al estado ALARM cuando los datos son - - - - X o - - - X - y Datapoints to Alarm (Puntos de datos para alarma) es 3. De esta forma, los falsos positivos se evitan cuando el siguiente punto de datos no infringe y provoca que los datos sean - - - X O o - - X - O.

Sin embargo, si los últimos puntos de datos son - - X - -, la alarma pasa al estado ALARM incluso si los puntos de datos que faltan se tratan como que faltan. Esto se debe a que las alarmas de están diseñadas para ir siempre al estado ALARM cuando el número de puntos de datos de interrupción más antiguo disponible durante el período de evaluación de los puntos de datos sea al menos tan antiguo como el valor de Datapoints to Alarm (Puntos de datos para alarma) y todos los demás puntos de datos más recientes se infrinjan o faltan. En este caso, la alarma entra en estado ALARM incluso si el número total de puntos de datos disponibles es inferior a M (puntos de datos para alarma).

Esta lógica de alarma también se aplica a M de N alarmas. Si el número de puntos de datos con interrupción más antiguo durante el número de Evaluation Periods (Períodos de evaluación) es al menos tan antiguo como el valor de Evaluation Periods (Períodos de evaluación) y los puntos de datos más recientes se infringen o faltan, la alarma pasa al estado ALARM independientemente del valor de M (Datapoints to Alarm (Puntos de datos para alarma)).

Alarmas de alta resolución

Si configura una alarma en una métrica de alta resolución, puede especificar una alarma de alta resolución con un periodo de 10 o 30 segundos, o puede definir una alarma normal con un periodo de cualquier múltiplo de 60 segundos. El cargo es mayor en el caso de las alarmas de alta resolución. Para obtener más información acerca de las métricas de alta resolución, consulte Publicación de métricas personalizadas.

Alarmas en expresiones matemáticas

Puede configurar una alarma basada en el resultado de una expresión matemática que se basa en una o varias métricas de CloudWatch Una expresión matemática utilizada para una alarma puede incluir hasta 10 métricas. Cada métrica debe utilizar el mismo periodo.

Para una alarma basada en una expresión matemática, puede especificar cómo desea que CloudWatch trate los puntos de datos que faltan para las métricas subyacentes a la hora de evaluar la alarma.

Las alarmas basadas de expresiones matemáticas no pueden realizar acciones de Amazon EC2

Para obtener más información acerca de las expresiones matemáticas en métricas y las sintaxis, consulte Uso de cálculo de métricas.

Muestras de datos reducidas y alarmas de CloudWatch basadas en percentil

Al establecer un percentil como estadística para una alarma, puede especificar qué es lo que debe hacer cuando no hay suficientes datos para una buena evaluación estadística. Puede elegir que la alarma evalúe la estadística de todas formas y posiblemente cambie el estado de alarma. O bien, puede hacer que la alarma ignore la métrica mientras el tamaño de la muestra sea reducido y esperar a evaluarlo hasta que haya suficientes datos significativos estadísticamente.

Para los percentiles entre 0,5 (incluido) y 1,00 (excluido), esta configuración se utiliza cuando hay menos de 10/(1-percentil) puntos de datos durante el periodo de evaluación. Por ejemplo, esta configuración se utilizaría si se hubiera menos de 1 000 muestras para una alarma en un percentil p99. Para los percentiles entre 0 y 0,5 (excluido), la configuración se utiliza cuando hay menos de 10/percentil puntos de datos.

Características comunes de las alarmas de CloudWatch

Las siguientes características se aplican a todas las alarmas de CloudWatch

  • Puede crear hasta 5000 alarmas por región para cada cuenta de AWS Para crear o actualizar una alarma, utilice la CloudWatch consola de , la acción de la PutMetricAlarm API o el comando put-metric-alarm en la AWS CLI.

  • Los nombres de alarma solo pueden contener caracteres ASCII.

  • Puede enumerar una o todas las alarmas configuradas actualmente y enumerar las alarmas en un estado determinado mediante la CloudWatch consola de , la acción de la DescribeAlarms API o el comando describe-alarms en la AWS CLI.

  • Puede deshabilitar y habilitar alarmas mediante la CloudWatch consola de , las acciones de la DisableAlarmActions API EnableAlarmActions y o los comandos disable-alarm-actions y enable-alarm-actions en la AWS CLI.

  • Puede probar una alarma estableciéndola en cualquier estado mediante la acción de la SetAlarmState API o el comando set-alarm-state de la AWS CLI. Este cambio de estado temporal dura solamente hasta que se produce la siguiente comparación de alarma.

  • Puede crear una alarma para una métrica personalizada antes de crear esa métrica personalizada. Para que la alarma sea válida, debe incluir todas las dimensiones para la métrica personalizada, además del espacio de nombres de métrica y nombre de métrica en la definición de alarma. Para ello, puede utilizar la acción de la PutMetricAlarm API o el comando put-metric-alarm en la AWS CLI.

  • Puede ver el historial de una alarma mediante la CloudWatch consola de , la acción de la DescribeAlarmHistory API de o el comando describe-alarm-history de la AWS CLI. CloudWatch conserva el historial de alarmas durante dos semanas. Cada transición de estado se marca con una marca temporal única. En casos excepcionales, el historial podría mostrar más de una notificación para un cambio de estado. La marca temporal le permite confirmar cambios de estado únicos.

  • El número de periodos de evaluación para una alarma multiplicado por la duración de cada periodo de evaluación no puede superar un día.

nota

Algunos recursos de AWS no envían datos de métricas a CloudWatch en determinadas condiciones.

Por ejemplo, Amazon EBS podría no enviar los datos de métricas a un volumen disponible que no se haya asociado a una instancia Amazon EC2, ya que no hay ningún tipo de actividad de métrica que monitorizar para dicho volumen. Si tiene una alarma establecida para dicha métrica, es posible que observe que su estado cambia a INSUFFICIENT_DATA. Esto podría indicar que el recurso está inactivo y no significa necesariamente que exista un problema. Puede especificar cómo trata cada alarma los datos ausentes. Para obtener más información, consulte Configurar cómo tratan las alarmas de CloudWatch los datos que faltan.