Supervisar métricas con CloudWatch - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Supervisar métricas con CloudWatch

Las métricas se actualizan cada cinco minutos y se recogen automáticamente y se envían a CloudWatch para cada clúster de Amazon EMR. Este intervalo no se puede configurar. No se aplican cargos por las métricas de Amazon EMR que se comunican en CloudWatch. Estas métricas de punto de datos de cinco minutos de se archivan durante 63 días, tras los cuales, los datos se descartan.

¿Cómo utilizo las métricas de Amazon EMR?

En la siguiente tabla se muestran los usos comunes de las métricas de notificadas por Amazon EMR. Se trata de sugerencias que puede usar como punto de partida y no de una lista completa. Para obtener una lista completa de las métricas notificadas por Amazon EMR, consulteMétricas notificadas por Amazon EMR en CloudWatch.

¿Cómo? Métricas relevantes
Realizar un seguimiento del progreso de mi clúster Consulte las métricas RunningMapTasks, RemainingMapTasks, RunningReduceTasks y RemainingReduceTasks.
Detectar clústeres que están inactivos La métrica IsIdle realiza un seguimiento de si el clúster está disponible, pero actualmente no está ejecutando ninguna tarea. Puede configurar una alarma para que se active cuando el clúster haya estado inactivo durante un periodo de tiempo determinado, como, por ejemplo, treinta minutos.
Detectar si un nodo se queda sin espacio de almacenamiento LaMRUnhealthyNodesseguimiento métrico cuando uno o varios nodos principales o de tareas se quedan sin almacenamiento en disco local y hacen la transición a unUNHEALTHYEstado YARN. Por ejemplo, los nodos principales o de tareas se están quedando sin espacio en disco y no podrán ejecutar tareas.
Detectar si un clúster se queda sin espacio de almacenamiento LaHDFSUtilizationmetric supervisa la capacidad HDFS combinada del clúster y puede requerir cambiar el tamaño del clúster para añadir más nodos principales. Por ejemplo, la utilización de HDFS es elevada, lo que puede afectar al estado de los trabajos y del clúster.
Detectar cuándo se ejecuta un clúster a una capacidad reducida LaMRLostNodesLa métrica realiza un seguimiento de cuando uno o varios nodos básicos o de tareas no pueden comunicarse con el nodo maestro. Por ejemplo, el nodo principal o de tarea no puede acceder al nodo principal.

Para obtener más información, consulteEl clúster termina con NO_SLAVE_LEFT y los nodos principales FAILED_BY_MASTERyAWSSupport-Analizar registros de MRR.

Acceso CloudWatch métricas de Amazon EMR

Puede ver las métricas a las que informa Amazon EMR CloudWatch mediante la consola de Amazon EMR o la consola de CloudWatch. También puede recuperar métricas utilizando la CloudWatch Command de la CLImon-get-statso CloudWatchGetMetricStatisticsAPI. Para obtener más información sobre cómo ver o recuperar métricas para Amazon EMR mediante CloudWatch, consulte laAmazon CloudWatch Guía del usuario de.

Para ver métricas en la consola de Amazon EMR

  1. Abra la consola de Amazon EMR enhttps://console.aws.amazon.com/elasticmapreduce/.

  2. Para ver las métricas de un clúster, seleccione un clúster para mostrar el panel Summary (Resumen).

  3. Elija Monitoring (Monitorización) para ver información sobre dicho clúster. Elija cualquiera de las pestañas denominadasEstado del clúster,Map/Reduce,Estado del nodo, o bienE/Spara cargar los informes sobre el progreso y la salud del clúster.

  4. Después de elegir una métrica que ver, puede seleccionar un tamaño de gráfico. Edite los campos Start (Inicio) y End (Finalización) para filtrar las métricas según un marco temporal específico.

Establecer alarmas en las métricas

Amazon EMR envía métricas a CloudWatch, lo que significa que puede utilizar CloudWatch para configurar alarmas en las métricas de Amazon EMR. Por ejemplo, puede configurar una alarma en CloudWatch Para enviar un correo electrónico siempre que el uso de HDFS supere el 80%. Para obtener instrucciones detalladas, consulte .Crear o editar una CloudWatch alarmaen laAmazon CloudWatch Guía del usuario de.

Métricas notificadas por Amazon EMR en CloudWatch

Las siguientes tablas muestran las métricas que Amazon EMR notifica en la consola y envía a CloudWatch.

Métricas de Amazon EMR

Amazon EMR envía datos de varias métricas a CloudWatch. Todos los clústeres de Amazon EMR envían automáticamente métricas en intervalos de cinco minutos. Las métricas se archivan durante dos semanas; después de ese periodo, los datos se descartan.

El espacio de nombres de AWS/ElasticMapReduce incluye las siguientes métricas.

nota

Amazon EMR obtiene las métricas de un clúster. Si un clúster deja de estar disponible, no se registra ninguna métrica hasta que el clúster vuelve a estar disponible.

Están disponibles las siguientes métricas para los clústeres que ejecutan las versiones 2.x de Hadoop.

Métrica Descripción
Estado del clúster

IsIdle

Indica que un clúster ya no está funcionando, pero sigue activo y acumulando cargos. Se establece en 1 si no se ejecuta ninguna tarea ni ningún trabajo; en caso contrario, se establece en 0. Este valor se comprueba a intervalos de cinco minutos y un valor de 1 indica que el clúster estuvo inactivo cuando se comprobó, no que estuvo inactivo durante los cinco minutos. Para evitar falsos positivos, debe activar una alarma cuando este valor sea 1 durante más de una comprobación consecutiva de cinco minutos. Por ejemplo, puede activar una alarma cuando este valor sea 1 durante treinta minutos o más.

Caso de uso: Monitorear el rendimiento del

Unidades: Booleano

ContainerAllocated

El número de contenedores de recursos asignados por ResourceManager.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

ContainerReserved

El número de contenedores reservados.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

ContainerPending

El número de contenedores en la cola que aún no se han asignado.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

ContainerPendingRatio

La proporción entre contenedores pendientes y contenedores asignados (ContainerPendingRatio = ContainerPending /ContainerAllocated). Si ContainerAllocated = 0, luego ContainerPendingRatio = ContainerPending. El valor de ContainerPendingRatio representa un número, no un porcentaje. Este valor es útil para escalar recursos del clúster en función del comportamiento de asignación de contenedores.

Unidades: Recuento

AppsCompleted

El número de aplicaciones enviadas a YARN que se han completado.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

AppsFailed

El número de aplicaciones enviadas a YARN que no se han podido completar.

Caso de uso: Supervisar el progreso de los clústeres,

Unidades: Recuento

AppsKilled

El número de aplicaciones enviadas a YARN que se han cancelado.

Caso de uso: Supervisar el progreso de los clústeres,

Unidades: Recuento

AppsPending

El número de aplicaciones enviadas a YARN que están en estado pendiente.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

AppsRunning

El número de aplicaciones enviadas a YARN que se están ejecutando.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

AppsSubmitted

El número de aplicaciones enviadas a YARN.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

Estado del nodo

CoreNodesRunning

El número de nodos secundarios en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso: Monitorear el estado de

Unidades: Recuento

CoreNodesPending

El número de nodos secundarios en espera de ser asignados. Puede que no todos los nodos secundarios solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso: Monitorear el estado de

Unidades: Recuento

LiveDataNodes

El porcentaje de nodos de datos que reciben trabajo de Hadoop.

Caso de uso: Monitorear el estado de

Unidades: Porcentaje

MRTotalNodes

El número de nodos actualmente disponibles para trabajos de MapReduce. Equivalente a la métrica YARN mapred.resourcemanager.TotalNodes.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

MRActiveNodes

El número de nodos que se están ejecutando actualmente MapReduce tareas o trabajos. Equivalente a la métrica YARN mapred.resourcemanager.NoOfActiveNodes.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

MRLostNodes

El número de nodos asignados a MapReduce que se han marcado en estado LOST. Equivalente a la métrica YARN mapred.resourcemanager.NoOfLostNodes.

Caso de uso: Supervisar el estado de los clústeres,

Unidades: Recuento

MRUnhealthyNodes

El número de nodos disponibles para MapReduce trabajos marcados con el estado UNHEALTHY. Equivalente a la métrica YARN mapred.resourcemanager.NoOfUnhealthyNodes.

Caso de uso: Monitorear el progreso de

Unidades: Recuento

MRDecommissionedNodes

El número de nodos asignados a aplicaciones de MapReduce que se han marcado con el estado DECOMMISSIONED. Equivalente a la métrica YARN mapred.resourcemanager.NoOfDecommissionedNodes.

Caso de uso: Supervisar el estado de los clústeres,

Unidades: Recuento

MRRebootedNodes

El número de nodos disponibles para MapReduce que se han reiniciado y marcado en un estado REBOOTED. Equivalente a la métrica YARN mapred.resourcemanager.NoOfRebootedNodes.

Caso de uso Supervisar el estado de los clústeres,

Unidades: Recuento

MultiMasterInstanceGroupNodesRunning

El número de nodos principales en ejecución.

Caso de uso Monitoree errores y sustituciones del nodo principal

Unidades: Recuento

MultiMasterInstanceGroupNodesRunningPercentage

El porcentaje de nodos principales que se están ejecutando por encima del recuento de instancias del nodo principal solicitadas.

Caso de uso Monitoree errores y sustituciones del nodo principal

Unidades: Porcentaje

MultiMasterInstanceGroupNodesRequested

El número de nodos principales solicitados.

Caso de uso Monitoree errores y sustituciones del nodo principal

Unidades: Recuento

E/S

S3BytesWritten

El número de bytes escritos en Amazon S3. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de Amazon EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

S3BytesRead

El número de bytes leídos desde Amazon S3. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de Amazon EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

HDFSUtilization

El porcentaje de almacenamiento HDFS usado actualmente.

Caso de uso Análisis del rendimiento del clú

Unidades: Porcentaje

HDFSBytesRead

El número de bytes leídos de HDFS. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

HDFSBytesWritten

El número de bytes escritos en HDFS. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

MissingBlocks

El número de bloques en los que HDFS no tiene réplicas. Pueden tratarse de bloques dañados.

Caso de uso Monitorear el estado de

Unidades: Recuento

CorruptBlocks

El número de bloques que HDFS registra como dañados.

Caso de uso Monitorear el estado de

Unidades: Recuento

TotalLoad

El número total de transferencias de datos simultáneas,

Caso de uso Monitorear el estado de

Unidades: Recuento

MemoryTotalMB

La cantidad de memoria total del clúster.

Caso de uso Monitorear el progreso de

Unidades: Recuento

MemoryReservedMB

La cantidad de memoria reservada.

Caso de uso Monitorear el progreso de

Unidades: Recuento

MemoryAvailableMB

La cantidad de memoria disponible para asignar.

Caso de uso Monitorear el progreso de

Unidades: Recuento

YARNMemoryAvailablePercentage

El porcentaje de memoria restante disponible para YARN (YARNMemoryAvailablePercentage = MemoryAvailableMB / MemoryTotalMB). Este valor es útil para escalar recursos del clúster en función del uso de memoria de YARN.

Unidades: Porcentaje

MemoryAllocatedMB

La cantidad de memoria asignada al clúster.

Caso de uso Monitorear el progreso de

Unidades: Recuento

PendingDeletionBlocks

El número de bloques marcados para eliminación.

Caso de uso Supervisar el progreso de los clústeres,

Unidades: Recuento

UnderReplicatedBlocks

El número de bloques que necesitan replicarse una o varias veces.

Caso de uso Supervisar el progreso de los clústeres,

Unidades: Recuento

DfsPendingReplicationBlocks

El estado de replicación del bloque: bloques que se están replicando, antigüedad de las solicitudes de replicación y solicitudes replicadas correctamente.

Caso de uso Supervisar el progreso de los clústeres,

Unidades: Recuento

CapacityRemainingGB

La cantidad de capacidad de disco HDFS restante.

Caso de uso Supervisar el progreso de los clústeres,

Unidades: Recuento

A continuación se indican las métricas de Hadoop 1:

Métrica Descripción
Estado del clúster

IsIdle

Indica que un clúster ya no está funcionando, pero sigue activo y acumulando cargos. Se establece en 1 si no se ejecuta ninguna tarea ni ningún trabajo; en caso contrario, se establece en 0. Este valor se comprueba a intervalos de cinco minutos y un valor de 1 indica que el clúster estuvo inactivo cuando se comprobó, no que estuvo inactivo durante los cinco minutos. Para evitar falsos positivos, debe activar una alarma cuando este valor sea 1 durante más de una comprobación consecutiva de cinco minutos. Por ejemplo, puede activar una alarma cuando este valor sea 1 durante treinta minutos o más.

Caso de uso Monitorear el rendimiento del

Unidades: Booleano

JobsRunning

El número de trabajos del clúster que se encuentran actualmente en ejecución.

Caso de uso Monitorear el estado de

Unidades: Recuento

JobsFailed

El número de trabajos del clúster que han producido un error.

Caso de uso Monitorear el estado de

Unidades: Recuento

Map/Reduce

MapTasksRunning

Número de tareas de asignación en ejecución de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos.

Caso de uso Monitorear el progreso de

Unidades: Recuento

MapTasksRemaining

Número de tareas de asignación pendientes de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Una tarea de asignación pendiente es aquella que no tiene ninguno de los siguientes estados: Corriendo, asesinado o completado.

Caso de uso Monitorear el progreso de

Unidades: Recuento

MapSlotsOpen

La capacidad de la tarea de asignación no utilizada. Se calcula como el número máximo de tareas de asignación de un clúster determinado menos el número total de tareas de asignación que se están ejecutando actualmente en el clúster.

Caso de uso Análisis del rendimiento del clú

Unidades: Recuento

RemainingMapTasksPerSlot

La proporción entre el total de tareas de asignación pendientes y el total de slots de asignación disponibles en el clúster.

Caso de uso Análisis del rendimiento del clú

Unidades: Ratio

ReduceTasksRunning

Número de tareas de reducción en ejecución de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos.

Caso de uso Monitorear el progreso de

Unidades: Recuento

ReduceTasksRemaining

Número de tareas de reducción pendientes de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos.

Caso de uso Monitorear el progreso de

Unidades: Recuento

ReduceSlotsOpen

La capacidad de la tarea de reducción no utilizada. Se calcula como la capacidad máxima de la tarea de reducción de un clúster determinado menos el número de tareas de reducción que se están ejecutando actualmente en el clúster.

Caso de uso Análisis del rendimiento del clú

Unidades: Recuento

Estado del nodo

CoreNodesRunning

El número de nodos secundarios en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso Monitorear el estado de

Unidades: Recuento

CoreNodesPending

El número de nodos secundarios en espera de ser asignados. Puede que no todos los nodos secundarios solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso Monitorear el estado de

Unidades: Recuento

LiveDataNodes

El porcentaje de nodos de datos que reciben trabajo de Hadoop.

Caso de uso Monitorear el estado de

Unidades: Porcentaje

TaskNodesRunning

El número de nodos de tareas en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso Monitorear el estado de

Unidades: Recuento

TaskNodesPending

El número de nodos de tareas en espera de ser asignados. Puede que no todos los nodos de tareas solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente.

Caso de uso Monitorear el estado de

Unidades: Recuento

LiveTaskTrackers

El porcentaje de rastreadores de tareas que están operativos.

Caso de uso Monitorear el estado de

Unidades: Porcentaje

E/S

S3BytesWritten

El número de bytes escritos en Amazon S3. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de Amazon EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

S3BytesRead

El número de bytes leídos desde Amazon S3. Esta métrica se agrupa MapReduce solo trabajos y no se aplica a otras cargas de trabajo de Amazon EMR.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

HDFSUtilization

El porcentaje de almacenamiento HDFS usado actualmente.

Caso de uso Análisis del rendimiento del clú

Unidades: Porcentaje

HDFSBytesRead

El número de bytes leídos de HDFS.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

HDFSBytesWritten

El número de bytes escritos en HDFS.

Caso de uso Analizar el rendimiento del clúster, supervisar el progreso

Unidades: Recuento

MissingBlocks

El número de bloques en los que HDFS no tiene réplicas. Pueden tratarse de bloques dañados.

Caso de uso Monitorear el estado de

Unidades: Recuento

TotalLoad

Número total actual de lectores y escritores registrados por todos DataNodes en un clúster.

Caso de uso Diagnosticar en qué medida un nivel elevado de E/S podría estar contribuyendo a un rendimiento deficiente en la ejecución de trabajos. Nodos de trabajo que ejecutan el DataNode demonio también debe llevar a cabo tareas de mapeo y reducción. Persistentemente alto TotalLoad valores a lo largo del tiempo pueden indicar que un nivel elevado de E/S podría ser un factor que contribuye a que el rendimiento sea deficiente. Los picos ocasionales en este valor son normales y no necesariamente son indicativos de un problema.

Unidades: Recuento

Métricas de capacidad clúster

Las siguientes métricas indican la capacidad actual o prevista de un clúster. Estas métricas solo están disponibles cuando el escalado administrado o la terminación automática están habilitados.

Para los clústeres compuestos por flotas de instancias, las métricas de capacidad del clúster se miden en Units. Para los clústeres compuestos por grupos de instancias, las métricas de capacidad del clúster se miden en Nodes o en VCPU en función del tipo de unidad utilizado en la política de escalado administrado. Para obtener más información, consulteUso del escalado administrado por EMRen laGuía de administración de Amazon EMR.

Métrica Descripción
  • TotalUnitsRequested

  • TotalNodesRequested

  • TotalVCPURequested

El número total previsto de unidades, nodos o vCPU en un clúster según lo determine el escalado administrado.

Unidades: Recuento

  • TotalUnitsRunning

  • TotalNodesRunning

  • TotalVCPURunning

El número total actual de unidades, nodos o vCPU disponibles en un clúster en ejecución. Cuando se solicita un cambio de tamaño del clúster, esta métrica se actualizará después de agregar o quitar las nuevas instancias del clúster.

Unidades: Recuento

  • CoreUnitsRequested

  • CoreNodesRequested

  • CoreVCPURequested

El número previsto de unidades, nodos o vCPU CORE en un clúster según lo determine el escalado administrado.

Unidades: Recuento

  • CoreUnitsRunning

  • CoreNodesRunning

  • CoreVCPURunning

El número actual de unidades, nodos o vCPU CORE que se ejecutan en un clúster.

Unidades: Recuento

  • TaskUnitsRequested

  • TaskNodesRequested

  • TaskVCPURequested

El número previsto de unidades, nodos o vCPU TASK en un clúster según lo determine el escalado administrado.

Unidades: Recuento

  • TaskUnitsRunning

  • TaskNodesRunning

  • TaskVCPURunning

El número actual de unidades, nodos o vCPU TASK que se ejecutan en un clúster.

Unidades: Recuento

Amazon EMR emite las siguientes métricas con una granularidad de un minuto cuando habilita la terminación automática mediante una política de terminación automática. Algunas métricas solo están disponibles para Amazon EMR versiones 6.4.0 y posteriores. Para obtener más información sobre la terminación automática, consulteUso de una política de terminación automática.

Métrica Descripción
TotalNotebookKernels El número total de núcleos de bloc de notas en ejecución e inactivos en el clúster.

Esta métrica solo está disponible para Amazon EMR versiones 6.4.0 y posteriores.

AutoTerminationIsClusterIdle Indica si el clúster se está utilizando.

Valor de0indica que el clúster está en uso activo por uno de los siguientes componentes:

  • Aplicación YARN

  • HDFS

  • Una notebook

  • Una interfaz de usuario en clúster, como Spark History Server

Valor de1indica que el clúster está inactivo. Amazon EMR comprueba si hay inactividad continua del clúster (AutoTerminationIsClusterIdle= 1). Cuando el tiempo de inactividad de un clúster es igual aIdleTimeoutvalor en la política de terminación automática, Amazon EMR finaliza el clúster.

Dimensiones de las métricas de Amazon EMR

Los datos de Amazon EMR se pueden filtrar utilizando cualquiera de las dimensiones de la tabla siguiente.

Dimensión Descripción
JobFlowId El mismo que el ID de clúster, que es un identificador único de un clúster del formatoj-XXXXXXXXXXXXX. Puede encontrar este valor haciendo clic en el clúster de la consola de Amazon EMR.
JobId El identificador de un trabajo de un clúster. Puede utilizarlo para filtrar las métricas devueltas desde un clúster hasta las que se aplican a un solo trabajo dentro del clúster. JobId toma el formulario Job_XXXXXXXXXXXXXX.