Uso de alarmas de Amazon CloudWatch - Amazon CloudWatch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de alarmas de Amazon CloudWatch

Puede crear tantoAlarmas de métricas deyAlarmas de compuestosEn CloudWatch.

  • AMétrica de alarmavigila una única métrica de CloudWatch o el resultado de una expresión matemática basada en las métricas de CloudWatch. La alarma realiza una o varias acciones según el valor de la métrica o expresión con respecto a un umbral durante varios períodos de tiempo. La acción puede ser enviar una notificación a un tema de Amazon SNS, realizar una acción de Amazon EC2 o una acción de Auto Scaling, o crear un OpsItem de Systems Manager.

  • Una alarma compuesta incluye una expresión de regla que tiene en cuenta los estados de alarma de otras alarmas que haya creado. La alarma compuesta entra en estado ALARM solo si se cumplen todas las condiciones de la regla. Las alarmas especificadas en la expresión de regla de una alarma compuesta pueden incluir alarmas de métricas y otras alarmas compuestas.

    El uso de alarmas compuestas puede reducir el ruido de las alarmas. Puede crear varias alarmas de métricas, así como crear una alarma compuesta y configurar alertas solo para la alarma compuesta. Por ejemplo, una alarma compuesta podría entrar en estado ALARM solo cuando todas las alarmas de métricas subyacentes estén en estado ALARM.

    Las alarmas compuestas pueden enviar notificaciones de Amazon SNS cuando cambian de estado y pueden crear sistemas OpsItems cuando entran en estado ALARM, pero no pueden realizar acciones de EC2 ni acciones de Auto Scaling.

Puede agregar alarmas a paneles de CloudWatch y monitorizarlas visualmente. Cuando una alarma está en un panel, se vuelve de color rojo cuando está en el estado ALARM, lo que facilita la monitorización de su estado de forma proactiva.

Una alarma solo invoca acciones cuando la alarma cambia de estado. La excepción es para las alarmas con acciones de Auto Scaling. Para acciones Auto Scaling, la alarma sigue invocando la acción una vez por minuto que la alarma permanece en el nuevo estado.

nota

CloudWatch no prueba ni valida las acciones que especifique, ni detecta ningún error de Amazon EC2 Auto Scaling o Amazon SNS derivado de un intento de invocar acciones inexistentes. Asegúrese de que las acciones de alarma existan.

Estados de las alarmas de métricas

Una alarma de métrica tiene los siguientes estados posibles:

  • OK: la métrica o expresión está dentro del umbral definido.

  • ALARM: la métrica o expresión está fuera del umbral definido.

  • INSUFFICIENT_DATA: la alarma acaba de iniciarse, la métrica no está disponible o no hay suficientes datos disponibles en la métrica para determinar el estado de la alarma.

Evaluación de una alarma

Al crear una alarma de, especifica tres valores para habilitar CloudWatch para evaluar cuándo cambiar el estado de la alarma:

  • Period (Período) es la duración de tiempo para evaluar la métrica o expresión para crear cada punto de datos individual para una alarma. Se expresa en segundos. Si elige un minuto como período, la alarma evalúa la métrica una vez por minuto.

  • Periodo de evaluaciónes el número de los puntos de datos más recientes que evaluar a la hora de determinar el estado de alarma.

  • Puntos de datos a alarmaes el número de puntos de datos dentro de los Periodos de evaluación que deben estar fuera del umbral para provocar que la alarma vaya alALARM(estado). Los puntos de datos fuera del umbral no tienen que ser consecutivos; solo deben estar dentro de la última cantidad de puntos de datos igual a Evaluation Period (Periodo de evaluación).

En la siguiente figura, el umbral de alarma de una métrica de alarma está definido en tres unidades. AmbosPeriodo de evaluaciónyPuntos de datos a alarmaSon 3. Es decir, cuando los puntos de datos existentes en los últimos tres periodos consecutivos superan el umbral, la alarma pasa alALARM(estado). En la figura, esto sucede en los periodos de tiempo del tercero al quinto. En el sexto periodo, el valor cae por debajo del umbral, por lo que uno de los períodos que se evalúa no está fuera del umbral y el estado de la alarma cambia de nuevo aOK. Durante el noveno período de tiempo, el umbral se incumple de nuevo, pero solo para un periodo. Por lo tanto, el estado de la alarma se mantiene OK.


        Alarma de disparador de umbral de alarma

Cuando configuraPeriodo de evaluaciónyPuntos de datos a alarmaComo valores distintos, está estableciendo una alarma «M de N». Puntos de datos a alarmaes («M») yPeriodo de evaluaciónes («N»). El intervalo de evaluación es el número de puntos de datos multiplicado por el periodo. Por ejemplo, si configura 4 de 5 puntos de datos con un periodo de 1 minuto, el intervalo de evaluación es de 5 minutos. Si configura 3 de 3 puntos de datos con un periodo de 10 minutos, el intervalo de evaluación es de 30 minutos.

nota

Si faltan puntos de datos poco después de crear una alarma y la métrica se estaba notificando a CloudWatch antes de crear la alarma, CloudWatch recupera los puntos de datos más recientes antes de que se creara la alarma a la hora de evaluar la alarma.

Acciones de alarma

Puede especificar las acciones que realiza una alarma cuando cambia de estado entre los estados OK, ALARM e INSUFICIENT_DATA. El tipo más común de acción de alarma es notificar a una o más personas enviando un mensaje a un tema de Amazon Simple Notification Service. Para obtener más información sobre Amazon SNS, consulte¿Qué es Amazon SNS?.

Las alarmas basadas en métricas de EC2 también pueden realizar acciones de EC2, como detener, terminar, reiniciar, o recuperar una instancia de EC2. Para obtener más información, consulte Crear alarmas para parar, terminar, reiniciar o recuperar una instancia EC2.

Las alarmas también pueden realizar acciones para escalar un grupo de Auto Scaling. Para obtener más información, consultePolíticas de escalado paso y paso para Amazon EC2 Auto Scaling.

Las acciones de alarmas también pueden crear OpsItems en el Centro de operaciones de Systems Manager. Para obtener más información, consulteConfiguración de CloudWatch para crear OpsItems a partir de alarmas.

Configuración de cómo tratan las alarmas de CloudWatch los datos que faltan

A veces, no todos los puntos de datos esperados para una métrica se notifican a CloudWatch. Por ejemplo, esto puede ocurrir cuando se pierde una conexión, un servidor deja de funcionar o cuando una métrica indica datos solo de forma intermitente por diseño.

CloudWatch le permite especificar cómo tratar los puntos de datos que faltan a la hora de evaluar una alarma. Esto le ayuda a configurar su alarma para que vaya aALARMsolo cuando proceda para el tipo de datos que se monitorizan. Puede evitar falsos positivos cuando los datos que faltan no indican un problema.

De forma similar al modo en que cada alarma siempre está en uno de los tres estados, cada punto de datos específico notificado a CloudWatch entra dentro de una de las tres categorías:

  • Sin infracción (dentro del umbral)

  • Con infracción (se infringe el umbral)

  • Ausente

Para cada alarma, puede especificar que CloudWatch trate los puntos de datos que faltan de las siguientes maneras:

  • notBreaching— Los puntos de datos que faltan se tratan como «buenos» y dentro del umbral,

  • breaching: los puntos de datos que faltan se tratan como «malos» y que superan el umbral

  • ignore— se mantiene la alarma actual

  • missing— Si faltan todos los puntos de datos del rango de evaluación de la alarma, la alarma pasa a INSUFFICIENT_DATA.

La mejor opción depende del tipo de métrica. Para una métrica que notifica datos de forma continua como, por ejemplo, CPUUtilization de una instancia, es posible que desee tratar los puntos de datos que faltan como breaching, ya que pueden indicar que algo va mal. Pero para una métrica de que genera puntos de datos solo cuando se produce un error como, por ejemplo,ThrottledRequestsen Amazon DynamoDB, querría tratar los datos que faltan comonotBreaching. El comportamiento predeterminado es missing.

Elegir la mejor opción para su alarma evita cambios innecesarios y confusos en la condición de alarma y además indica con mayor precisión el estado de su sistema.

Cómo se evalúa el estado de alarma cuando faltan datos

En Whenever alarm evalúa si se debe cambiar de estado, CloudWatch intenta recuperar un número de puntos de datos más elevado del número especificado enPeriodo de evaluación. El número exacto de puntos de datos que intenta recuperar depende de la duración del periodo de alarma y de si se basa en una métrica con resolución estándar o con alta resolución. El plazo de los puntos de datos que intenta recuperar es el rango de evaluación.

Una vez que CloudWatch recupera estos puntos de datos, ocurre lo siguiente:

  • Si no falta ningún punto de datos en el rango de evaluación, CloudWatch evalúa la alarma basándose en los puntos de datos más recientes. El número de puntos de datos evaluado es igual alPeriodo de evaluaciónpara la alarma. Los puntos de datos adicionales de más atrás en el rango de evaluación no son necesarios y se ignoran.

  • Si falta algún punto de datos en el rango de evaluación, pero el número total de puntos de datos existentes que se han recuperado correctamente del rango de evaluación es igual o superior a laPeriodo de evaluaciónPara que CloudWatch evalúa el estado de alarma en función de los puntos de datos reales más recientes que se han recuperado correctamente, incluidos los puntos de datos adicionales necesarios más allá del rango de evaluación. En este caso, el valor que establezca acerca de cómo tratar los datos que faltan no es necesario y no se tiene en cuenta.

  • Si falta algún punto de datos del rango de evaluación y el número de puntos de datos real que se recuperaron es inferior al número dePeriodo de evaluación, CloudWatch rellena los puntos de datos que faltan con el resultado que especificó acerca de cómo tratar los datos que faltan y, a continuación, evalúa la alarma. Sin embargo, todos los puntos de datos reales en el rango de evaluación se incluyen en la evaluación. CloudWatch utiliza puntos de datos que faltan solo el menor número de veces posible.

nota

Un caso concreto de este comportamiento es que las alarmas de CloudWatch pueden a evaluar una y otra vez el último conjunto de puntos de datos durante un período de tiempo después de que la métrica ha dejado de fluir. Esta reevaluación puede provocar que la alarma cambie de estado y que se vuelvan a ejecutar acciones, si cambió de estado inmediatamente antes de detenerse el flujo de la métrica. Para mitigar este comportamiento, utilice períodos más cortos.

Las tablas siguientes muestran ejemplos del comportamiento de evaluación de alarma. En el primer cuadro,Puntos de datos a alarmayPeriodo de evaluaciónLos dos son 3. CloudWatch recupera los cinco puntos de datos más recientes a la hora de evaluar la alarma, en caso de que falten algunos de los tres puntos de datos más recientes.

En la columna 1 se muestran los cinco puntos de datos más recientes, ya que el rango de evaluación es 5. Estos puntos de datos se muestran con el punto de datos más reciente a la derecha. 0 es un punto de datos sin infracción, X es un punto de datos con infracción y - es un punto de datos que falta.

En la columna 2 se indica cuántos de los tres puntos de datos necesarios faltan. Aunque se evalúan los últimos cinco puntos de datos, solo tres (el valor de Evaluation Periods [Períodos de evaluación]) son necesarios para evaluar el estado de la alarma. El número de puntos de datos de la columna 2 es el número de puntos de datos que deben completarse, utilizando la configuración de cómo se tratan los datos que faltan.

En las columnas 3-6, los encabezados de columna son los valores posibles para tratar los datos que faltan. Las filas de estas columnas muestran el estado de alarma que se establece para cada una de estas posibles formas de tratar los datos que faltan.

Puntos de datos Número de puntos de datos que deben llenarse AUSENTE IGNORE INFRACCIÓN SIN INFRACCIÓN

0 - X - X

0

OK

OK

OK

OK

- - - - 0

2

OK

OK

OK

OK

- - - - -

3

INSUFFICIENT_DATA

Mantener el estado actual

ALARM

OK

0 X X - X

0

ALARM

ALARM

ALARM

ALARM

- - X - -

2

ALARM

Retain current state

ALARM

OK

En la segunda fila de la tabla anterior, la alarma permanece OK incluso si los datos que faltan se tratan como infracción, ya que uno de los puntos de datos existente no se incumple y esto se evalúa junto con los dos puntos de datos que faltan que se tratan como infracción. La próxima vez que se evalúe esta alarma, si aún faltan los datos, se pasará alALARM, ya que ese punto de datos no infringe ya no estará dentro del rango de evaluación.

La tercera fila, donde faltan los cinco puntos de datos más recientes, ilustra cómo afectan el estado de la alarma los distintos ajustes para tratar los datos que faltan. Si se considera que los puntos de datos que faltan se violan, la alarma entra en estado ALARMA, mientras que si se considera que no se producen infracciones, la alarma entra en estado OK. Si se ignoran los puntos de datos que faltan, la alarma conserva el estado actual que tenía antes de los puntos de datos que faltan. Y si los puntos de datos faltantes se consideran faltantes, entonces la alarma no tiene suficientes datos reales recientes para hacer una evaluación, y entra en INSUFFICIENT_DATA.

En la cuarta fila, la alarma va aALARMen todos los casos porque los tres puntos de datos más recientes se están incumpliendo, y elPeriodo de evaluaciónyPuntos de datos a alarmase establecen en 3. En este caso, el punto de datos que faltan se ignora y no se necesita la configuración de cómo evaluar los datos que faltan, ya que hay tres puntos de datos reales que evaluar.

La fila 5 representa un caso especial de evaluación de alarmas llamadoestado de alarma prematuro. Para obtener más información, consulte Evitar transiciones prematuras al estado de alarma.

En la tabla siguiente, el Period (Período) se vuelve a establecer en 5 minutos y Datapoints to Alarm (Puntos de datos para alarma) es solo 2 mientras que Evaluation Periods (Períodos de evaluación) es 3. Se trata de una alarma 2 de 3, M de N.

El rango de evaluación es 5. Este es el número máximo de puntos de datos recientes que se recuperan y que se pueden utilizar en caso de que falten algunos.

Puntos de datos Cantidad de los puntos de datos que faltan AUSENTE IGNORE INFRACCIÓN SIN INFRACCIÓN

0 - X - X

0

ALARM

ALARM

ALARM

ALARM

0 0 X 0 X

0

ALARM

ALARM

ALARM

ALARM

0 - X - -

1

OK

OK

ALARM

OK

- - - - 0

2

OK

OK

ALARM

OK

- - - - X

2

ALARM

Mantener el estado actual

ALARM

OK

En las filas 1 y 2, la alarma siempre pasa al estado ALARMA porque 2 de los 3 puntos de datos más recientes están incumpliendo. En la fila 2, los dos puntos de datos más antiguos del rango de evaluación no son necesarios porque no faltan ninguno de los 3 puntos de datos más recientes, por lo que se ignoran estos dos puntos de datos antiguos.

En las filas 3 y 4, la alarma pasa al estado ALARM solo si los datos que faltan se tratan como violaciones, en cuyo caso los dos puntos de datos faltantes más recientes se tratan como violaciones. En la fila 4, estos dos puntos de datos faltantes que se tratan como incumplimiento proporcionan los dos puntos de datos de infracción necesarios para activar el estado ALARM.

La fila 5 representa un caso especial de evaluación de alarmas llamadoestado de alarma prematuro. Para obtener más información, consulte la siguiente sección.

Evitar transiciones prematuras al estado de alarma

La evaluación de alarmas de CloudWatch incluye lógica para tratar de evitar falsas alarmas, donde la alarma entra en estado de ALARMA prematuramente cuando los datos son intermitentes. El ejemplo mostrado en la fila 5 de las tablas de la sección anterior ilustra esta lógica. En esas filas, y en los siguientes ejemplos, elPeriodo de evaluaciónes 3 y el rango de evaluación es de 5 puntos de datos. Puntos de datos a alarmaes 3, excepto para el ejemplo M fuera de N, dondePuntos de datos a alarmaEs 2.

Supongamos que los datos más recientes de una alarma son- - - - X, con cuatro puntos de datos que faltan y, a continuación, un punto de datos de incumplimiento como el punto de datos más reciente. Debido a que el siguiente punto de datos puede no ser violador, la alarma no entra inmediatamente en estado ALARMA cuando los datos son- - - - Xo bien- - - X -yPuntos de datos a alarmaEs 3. De esta forma, se evitan los falsos positivos cuando el siguiente punto de datos no está violando y hace que los datos sean- - - X Oo bien- - X - O.

Sin embargo, si los últimos puntos de datos son- - X - -, la alarma entra en estado ALARMA incluso si los puntos de datos faltantes se tratan como faltantes. Esto se debe a que las alarmas están diseñadas para entrar siempre en estado ALARMA cuando el punto de datos más antiguo disponible durante el número de puntos de datos Períodos de evaluación es al menos tan antiguo como el valor dePuntos de datos a alarma, y todos los demás puntos de datos más recientes se están incumpliendo o faltan. En este caso, la alarma entra en estado ALARMA incluso si el número total de puntos de datos disponibles es inferior a M (Puntos de datos a alarma).

Esta lógica de alarma también se aplica a las alarmas M fuera de N. Si el punto de datos de infracción más antiguo durante elPeriodo de evaluaciónnúmero de puntos de datos es al menos tan antiguo como el valor dePeriodo de evaluación, y todos los puntos de datos más recientes están incumpliendo o faltan, la alarma entra en estado ALARMA sin importar el valor de M (Puntos de datos a alarma).

Alarmas de alta resolución

Si configura una alarma en una métrica de alta resolución, puede especificar una alarma de alta resolución con un periodo de 10 o 30 segundos, o puede definir una alarma normal con un periodo de cualquier múltiplo de 60 segundos. El cargo es mayor en el caso de las alarmas de alta resolución. Para obtener más información acerca de las métricas de alta resolución, consulte Publicación de métricas personalizadas.

Alarmas en expresiones matemáticas

Puede configurar una alarma basada en el resultado de una expresión matemática que se basa en una o varias métricas de CloudWatch. Una expresión matemática utilizada para una alarma puede incluir hasta 10 métricas. Cada métrica debe utilizar el mismo periodo.

Para una alarma basada en una expresión matemática, puede especificar cómo desea que CloudWatch trate los puntos de datos faltantes para las métricas subyacentes a la hora de evaluar la alarma.

Las alarmas basadas de expresiones matemáticas no pueden realizar acciones de Amazon EC2.

Para obtener más información acerca de las expresiones matemáticas en métricas y las sintaxis, consulte Uso de cálculo de métricas.

Muestras de datos reducidas y alarmas de CloudWatch basadas en percentil

Al establecer un percentil como estadística para una alarma, puede especificar qué es lo que debe hacer cuando no hay suficientes datos para una buena evaluación estadística. Puede elegir que la alarma evalúe la estadística de todas formas y posiblemente cambie el estado de alarma. O bien, puede hacer que la alarma ignore la métrica mientras el tamaño de la muestra sea reducido y esperar a evaluarlo hasta que haya suficientes datos significativos estadísticamente.

Para los percentiles entre 0,5 (incluido) y 1,00 (excluido), esta configuración se utiliza cuando hay menos de 10/(1-percentil) puntos de datos durante el periodo de evaluación. Por ejemplo, esta configuración se utilizaría si se hubiera menos de 1 000 muestras para una alarma en un percentil p99. Para los percentiles entre 0 y 0,5 (excluido), la configuración se utiliza cuando hay menos de 10/percentil puntos de datos.

Características comunes de las alarmas de CloudWatch

Las siguientes características se aplican a todas las alarmas de CloudWatch:

  • Puede crear hasta 5000 alarmas por región para cada cuenta de AWS. Para crear o actualizar una alarma, utilice la consola de CloudWatch, laPutMetricAlarmo la acción de la APImetric-alarmEn la AWS CLI.

  • Los nombres de alarma solo pueden contener caracteres ASCII.

  • Puede enumerar cualquiera o todas las alarmas configuradas actualmente y enumerar las alarmas en un estado determinado mediante la consola de CloudWatch, laDescribeAlarmso la acción de la APIDescribe-alarmsEn la AWS CLI.

  • Puede desactivar y activar alarmas utilizando la consola de CloudWatch, laDisableAlarmActionsyEnableAlarmActionso las acciones de la APIdesactiv-alarm-actionsyactiv-alarm-actionsEn la AWS CLI.

  • Puede probar una alarma configurándola en cualquier estado utilizando laSetAlarmStateLa acción de la API o laset-alarm-stateEn la AWS CLI. Este cambio de estado temporal dura solamente hasta que se produce la siguiente comparación de alarma.

  • Puede crear una alarma para una métrica personalizada antes de crear esa métrica personalizada. Para que la alarma sea válida, debe incluir todas las dimensiones para la métrica personalizada, además del espacio de nombres de métrica y nombre de métrica en la definición de alarma. Para ello, puede utilizar laPutMetricAlarmo la acción de la APImetric-alarmEn la AWS CLI.

  • Puede consultar el historial de una alarma utilizando la consola de CloudWatch, laDescribeAlarmHistoryo la acción de la APIdescribe-alarm-historyEn la AWS CLI. CloudWatch mantiene el historial de alarmas durante dos semanas. Cada transición de estado se marca con una marca temporal única. En casos excepcionales, el historial podría mostrar más de una notificación para un cambio de estado. La marca temporal le permite confirmar cambios de estado únicos.

  • El número de periodos de evaluación para una alarma multiplicado por la duración de cada periodo de evaluación no puede superar un día.

nota

Algunos recursos de AWS no envían datos de métricas a CloudWatch en determinadas condiciones.

Por ejemplo, es posible que Amazon EBS no envíe los datos de métricas a un volumen disponible que no se haya adjuntado a una instancia de Amazon EC2, ya que no hay ningún tipo de actividad de métrica que monitorizar para dicho volumen. Si tiene una alarma establecida para dicha métrica, es posible que observe que su estado cambia a INSUFFICIENT_DATA. Esto podría indicar que el recurso está inactivo y no significa necesariamente que exista un problema. Puede especificar cómo trata cada alarma los datos ausentes. Para obtener más información, consulte Configuración de cómo tratan las alarmas de CloudWatch los datos que faltan.