¿Cómo utilizo las métricas de Amazon EMR?Accede a CloudWatch las métricas de Amazon EMR Métricas reportadas por Amazon EMR en CloudWatch

Supervisión de las métricas de Amazon EMR con CloudWatch

Las métricas se actualizan cada cinco minutos y se recopilan y envían automáticamente CloudWatch para cada clúster de Amazon EMR. Este intervalo no se puede configurar. No se cobran cargos por las métricas de Amazon EMR informadas en. CloudWatch Estas métricas de puntos de datos de cinco minutos se archivan durante 63 días, tras lo cual se descartan los datos.

¿Cómo utilizo las métricas de Amazon EMR?

En la siguiente tabla, se muestran los usos más comunes de las métricas notificadas por Amazon EMR. Se trata de sugerencias que puede usar como punto de partida y no de una lista completa. Para ver una lista completa de las métricas notificadas por Amazon EMR, consulte Métricas reportadas por Amazon EMR en CloudWatch.

¿Cómo?	Métricas relevantes
Realizar un seguimiento del progreso de mi clúster	Consulte las métricas `RunningMapTasks`, `RemainingMapTasks`, `RunningReduceTasks` y `RemainingReduceTasks`.
Detectar clústeres que están inactivos	La métrica `IsIdle` realiza un seguimiento de si el clúster está disponible, pero actualmente no está ejecutando ninguna tarea. Puede configurar una alarma para que se active cuando el clúster haya estado inactivo durante un periodo de tiempo determinado, como, por ejemplo, treinta minutos.
Detectar si un nodo se queda sin espacio de almacenamiento	La métrica `MRUnhealthyNodes` registra cuándo uno o más nodos principales o de tarea se quedan sin almacenamiento en disco local y pasan a un estado `UNHEALTHY` de YARN. Por ejemplo, los nodos principales o de tarea se están quedando sin espacio en disco y no podrán ejecutar tareas.
Detectar si un clúster se queda sin espacio de almacenamiento	La métrica `HDFSUtilization` monitorea la capacidad de HDFS combinada del clúster y puede requerir el redimensionamiento del clúster para agregar más nodos principales. Por ejemplo, el uso de HDFS es elevado, lo que podría afectar a los trabajos y al estado del clúster.
Detectar cuándo un clúster se está ejecutando a una capacidad reducida	La métrica `MRLostNodes` registra cuándo uno o más nodos principales o de tarea no pueden comunicarse con el nodo maestro. Por ejemplo, el nodo maestro no puede acceder al nodo principal o de tarea.

Para obtener más información, consulte El clúster de Amazon EMR finaliza con NO_SLAVE_LEFT y los nodos básicos con FAILED_BY_MASTER y AWSSupport-AnalyzeEMRLogs.

Accede a CloudWatch las métricas de Amazon EMR

Puede ver las métricas de las que informa Amazon EMR CloudWatch mediante la consola Amazon EMR o la consola. CloudWatch También puede recuperar métricas mediante el comando CloudWatch CLI mon-get-stats o la CloudWatch GetMetricStatistics API. Para obtener más información sobre cómo ver o recuperar las métricas de Amazon EMR CloudWatch mediante Amazon, consulte la Guía del usuario de CloudWatch Amazon.

Métricas reportadas por Amazon EMR en CloudWatch

En las siguientes tablas se enumeran las métricas que Amazon EMR informa en la consola y las envía. CloudWatch

Métricas de Amazon EMR

Amazon EMR envía datos de varias métricas a. CloudWatch Todos los clústeres de Amazon EMR envían automáticamente métricas en intervalos de cinco minutos. Las métricas se archivan durante dos semanas; después de ese periodo, los datos se descartan.

El espacio de nombres de AWS/ElasticMapReduce incluye las siguientes métricas.

nota

Amazon EMR extrae métricas de un clúster. Si un clúster deja de estar disponible, no se registra ninguna métrica hasta que el clúster vuelve a estar disponible.

Están disponibles las siguientes métricas para los clústeres que ejecutan las versiones 2.x de Hadoop.

Métrica	Description (Descripción)
Estado del clúster
IsIdle	Indica que un clúster ya no está funcionando, pero sigue activo y acumulando cargos. Se establece en 1 si no se ejecuta ninguna tarea ni ningún trabajo; en caso contrario, se establece en 0. Este valor se comprueba a intervalos de cinco minutos, y un valor de 1 indica que el clúster estaba inactivo cuando se comprobó, no que estuvo inactivo durante los cinco minutos. Para evitar falsos positivos, debe activar una alarma cuando este valor sea 1 durante más de una comprobación consecutiva de cinco minutos. Por ejemplo, puede activar una alarma cuando este valor sea 1 durante treinta minutos o más. Caso de uso: monitorizar el rendimiento del clúster Unidades: booleano
ContainerAllocated	El número de contenedores de recursos asignados por. ResourceManager Caso de uso: monitorizar el progreso del clúster Unidades: recuento
ContainerReserved	El número de contenedores reservados. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
ContainerPending	El número de contenedores en la cola que aún no se han asignado. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
ContainerPendingRatio	La relación entre los contenedores pendientes y los contenedores asignados (ContainerPendingRatio = ContainerPending / ContainerAllocated). Si ContainerAllocated = 0, entonces ContainerPendingRatio =ContainerPending. El valor de ContainerPendingRatio representa un número, no un porcentaje. Este valor es útil para escalar recursos del clúster en función del comportamiento de asignación de contenedores. Unidades: recuento
AppsCompleted	El número de aplicaciones enviadas a YARN que se han completado. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
AppsFailed	El número de aplicaciones enviadas a YARN que no se han podido completar. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento
AppsKilled	El número de aplicaciones enviadas a YARN que se han cancelado. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento
AppsPending	El número de aplicaciones enviadas a YARN que están en estado pendiente. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
AppsRunning	El número de aplicaciones enviadas a YARN que se están ejecutando. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
AppsSubmitted	El número de aplicaciones enviadas a YARN. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
Estado del nodo
CoreNodesRunning	El número de nodos secundarios en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
CoreNodesPending	El número de nodos secundarios en espera de ser asignados. Puede que no todos los nodos secundarios solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
LiveDataNodes	El porcentaje de nodos de datos que reciben trabajo de Hadoop. Caso de uso: monitorizar el estado del clúster Unidades: porcentaje
MRTotalNodos	El número de nodos actualmente disponibles para los MapReduce trabajos. Equivalente a la métrica YARN `mapred.resourcemanager.TotalNodes`. Caso de uso: monitorizar el progreso del clúster Unidades: recuento Nota: MRTotal Los nodos solo cuentan los nodos actualmente activos en el sistema. YARN elimina automáticamente los nodos terminados de este recuento y deja de rastrearlos, por lo que no se consideran en la métrica de MRTotal nodos.
MRActiveNodos	El número de nodos que actualmente ejecutan MapReduce tareas o trabajos. Equivalente a la métrica YARN `mapred.resourcemanager.NoOfActiveNodes`. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MRLostNodos	El número de nodos asignados a los MapReduce que se ha marcado como PERDIDO. Equivalente a la métrica YARN `mapred.resourcemanager.NoOfLostNodes`. Caso de uso: monitorizar el estado del clúster, monitorizar el progreso del clúster Unidades: recuento
MRUnhealthyNodos	El número de nodos disponibles para los MapReduce trabajos marcados como insalubres. Equivalente a la métrica YARN `mapred.resourcemanager.NoOfUnhealthyNodes`. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MRDecommissionedNodos	El número de nodos asignados a MapReduce las aplicaciones que se han marcado como DESACTIVADAS. Equivalente a la métrica YARN `mapred.resourcemanager.NoOfDecommissionedNodes`. Caso de uso: monitorizar el estado del clúster, monitorizar el progreso del clúster Unidades: recuento
MRRebootedNodos	El número de nodos disponibles MapReduce que se han reiniciado y marcado en estado REINICIADO. Equivalente a la métrica YARN `mapred.resourcemanager.NoOfRebootedNodes`. Caso de uso: monitorizar el estado del clúster, monitorizar el progreso del clúster Unidades: recuento
MultiMasterInstanceGroupNodesRunning	El número de nodos principales en ejecución. Caso de uso: monitorizar errores y sustituciones del nodo principal Unidades: recuento
MultiMasterInstanceGroupNodesRunningPercentage	El porcentaje de nodos principales que se están ejecutando por encima del recuento de instancias del nodo principal solicitadas. Caso de uso: monitorizar errores y sustituciones del nodo principal Unidades: porcentaje
MultiMasterInstanceGroupNodesRequested	El número de nodos principales solicitados. Caso de uso: monitorizar errores y sustituciones del nodo principal Unidades: recuento
E/S
S3 BytesWritten	Número de bytes escritos en Amazon S3. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
S3 BytesRead	Número de bytes leídos desde Amazon S3. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
HDFSUtilization	El porcentaje de almacenamiento HDFS usado actualmente. Caso de uso: analizar el rendimiento del clúster Unidades: porcentaje
HDFSBytesLea	El número de bytes leídos de HDFS. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
HDFSBytesEscrito	El número de bytes escritos en HDFS. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
MissingBlocks	El número de bloques en los que HDFS no tiene réplicas. Pueden tratarse de bloques dañados. Caso de uso: monitorizar el estado del clúster Unidades: recuento
CorruptBlocks	El número de bloques que HDFS registra como dañados. Caso de uso: monitorizar el estado del clúster Unidades: recuento
TotalLoad	El número total de transferencias de datos simultáneas, Caso de uso: monitorizar el estado del clúster Unidades: recuento
MemoryTotalMB	La cantidad de memoria total del clúster. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MemoryReservedMB	La cantidad de memoria reservada. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MemoryAvailableMB	La cantidad de memoria disponible para asignar. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
YARNMemoryAvailablePercentage	El porcentaje de memoria restante disponible para YARN (YARNMemoryAvailablePercentage = MemoryAvailable MB/MemoryTotalMB). Este valor es útil para escalar recursos del clúster en función del uso de memoria de YARN. Unidades: porcentaje
MemoryAllocatedMB	La cantidad de memoria asignada al clúster. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
PendingDeletionBlocks	El número de bloques marcados para eliminación. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento
UnderReplicatedBlocks	El número de bloques que necesitan replicarse una o varias veces. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento
DfsPendingReplicationBlocks	El estado de replicación del bloque: bloques que se están replicando, antigüedad de las solicitudes de replicación y solicitudes replicadas correctamente. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento
CapacityRemainingGB	La cantidad de capacidad de disco HDFS restante. Caso de uso: monitorizar el progreso del clúster, monitorizar el estado del clúster Unidades: recuento

A continuación se indican las métricas de Hadoop 1:

Métrica	Description (Descripción)
Estado del clúster
IsIdle	Indica que un clúster ya no está funcionando, pero sigue activo y acumulando cargos. Se establece en 1 si no se ejecuta ninguna tarea ni ningún trabajo; en caso contrario, se establece en 0. Este valor se comprueba a intervalos de cinco minutos, y un valor de 1 indica que el clúster estaba inactivo cuando se comprobó, no que estuvo inactivo durante los cinco minutos. Para evitar falsos positivos, debe activar una alarma cuando este valor sea 1 durante más de una comprobación consecutiva de cinco minutos. Por ejemplo, puede activar una alarma cuando este valor sea 1 durante treinta minutos o más. Caso de uso: monitorizar el rendimiento del clúster Unidades: booleano
JobsRunning	El número de trabajos del clúster que se encuentran actualmente en ejecución. Caso de uso: monitorizar el estado del clúster Unidades: recuento
JobsFailed	El número de trabajos del clúster que han producido un error. Caso de uso: monitorizar el estado del clúster Unidades: recuento
Map/Reduce
MapTasksRunning	Número de tareas de asignación en ejecución de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MapTasksRemaining	Número de tareas de asignación pendientes de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Una tarea de asignación pendiente es aquella que no tiene ninguno de los siguientes estados: Running, Killed o Completed. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
MapSlotsOpen	La capacidad de la tarea de asignación no utilizada. Se calcula como el número máximo de tareas de asignación de un clúster determinado menos el número total de tareas de asignación que se están ejecutando actualmente en el clúster. Caso de uso: analizar el rendimiento del clúster Unidades: recuento
RemainingMapTasksPerSlot	La proporción entre el total de tareas de asignación pendientes y el total de slots de asignación disponibles en el clúster. Caso de uso: analizar el rendimiento del clúster Unidades: proporción
ReduceTasksRunning	Número de tareas de reducción en ejecución de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
ReduceTasksRemaining	Número de tareas de reducción pendientes de cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Caso de uso: monitorizar el progreso del clúster Unidades: recuento
ReduceSlotsOpen	La capacidad de la tarea de reducción no utilizada. Se calcula como la capacidad máxima de la tarea de reducción de un clúster determinado menos el número de tareas de reducción que se están ejecutando actualmente en el clúster. Caso de uso: analizar el rendimiento del clúster Unidades: recuento
Estado del nodo
CoreNodesRunning	El número de nodos secundarios en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
CoreNodesPending	El número de nodos secundarios en espera de ser asignados. Puede que no todos los nodos secundarios solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
LiveDataNodes	El porcentaje de nodos de datos que reciben trabajo de Hadoop. Caso de uso: monitorizar el estado del clúster Unidades: porcentaje
TaskNodesRunning	El número de nodos de tareas en funcionamiento. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
TaskNodesPending	El número de nodos de tareas en espera de ser asignados. Puede que no todos los nodos de tareas solicitados estén disponibles inmediatamente; esta métrica registra las solicitudes pendientes. Los puntos de datos de esta métrica solo se registran cuando existe un grupo de instancias correspondiente. Caso de uso: monitorizar el estado del clúster Unidades: recuento
LiveTaskTrackers	El porcentaje de rastreadores de tareas que están operativos. Caso de uso: monitorizar el estado del clúster Unidades: porcentaje
E/S
S3 BytesWritten	Número de bytes escritos en Amazon S3. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
S3 BytesRead	Número de bytes leídos desde Amazon S3. Esta métrica solo agrega MapReduce trabajos y no se aplica a otras cargas de trabajo en Amazon EMR. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
HDFSUtilization	El porcentaje de almacenamiento HDFS usado actualmente. Caso de uso: analizar el rendimiento del clúster Unidades: porcentaje
HDFSBytesLea	El número de bytes leídos de HDFS. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
HDFSBytesEscrito	El número de bytes escritos en HDFS. Caso de uso: analizar el rendimiento del clúster, monitorizar el progreso del clúster Unidades: recuento
MissingBlocks	El número de bloques en los que HDFS no tiene réplicas. Pueden tratarse de bloques dañados. Caso de uso: monitorizar el estado del clúster Unidades: recuento
TotalLoad	El número total actual de lectores y escritores registrado por todos los miembros DataNodes de un grupo. Caso de uso: Diagnostique en qué medida una dosis alta I/O podría estar contribuyendo a un desempeño deficiente en la ejecución del trabajo. Los nodos de trabajo que ejecutan el DataNode daemon también deben realizar tareas de mapeo y reducción. La persistencia de TotalLoad valores altos a lo largo del tiempo puede indicar que un nivel alto I/O podría ser un factor que contribuya a un rendimiento deficiente. Los picos ocasionales en este valor son normales y no necesariamente son indicativos de un problema. Unidades: recuento

Métricas de capacidad del clúster

Las siguientes métricas indican la capacidad actual o prevista de un clúster. Estas métricas solo están disponibles cuando el escalado administrado o la terminación automática están habilitados.

Para los clústeres compuestos por flotas de instancias, las métricas de capacidad del clúster se miden en Units. Para los clústeres compuestos por grupos de instancias, las métricas de capacidad del clúster se miden en Nodes o en VCPU en función del tipo de unidad utilizado en la política de escalado administrado. Para obtener más información, consulte Uso del escalado administrado de EMR en la Guía de administración de Amazon EMR.

Métrica	Description (Descripción)
`TotalUnitsRequested` `TotalNodesRequested` `TotalVCPURequested`	El número total objetivo de units/nodes/vCPUs un clúster, determinado por el escalado gestionado. Unidades: recuento
`TotalUnitsRunning` `TotalNodesRunning` `TotalVCPURunning`	El número total actual de units/nodes/vCPUs disponibles en un clúster en ejecución. Cuando se solicita un cambio de tamaño del clúster, esta métrica se actualizará después de agregar o quitar las nuevas instancias del clúster. Unidades: recuento
`CoreUnitsRequested` `CoreNodesRequested` `CoreVCPURequested`	El número objetivo de CORE units/nodes/vCPUs en un clúster, determinado por el escalado gestionado. Unidades: recuento
`CoreUnitsRunning` `CoreNodesRunning` `CoreVCPURunning`	El número actual de CORE units/nodes/vCPUs que se ejecutan en un clúster. Unidades: recuento
`TaskUnitsRequested` `TaskNodesRequested` `TaskVCPURequested`	El número objetivo de TAREAS units/nodes/vCPUs en un clúster, determinado por el escalado gestionado. Unidades: recuento
`TaskUnitsRunning` `TaskNodesRunning` `TaskVCPURunning`	El número actual de TAREAS units/nodes/vCPUs que se están ejecutando en un clúster. Unidades: recuento

Amazon EMR emite las siguientes métricas con una granularidad de un minuto cuando se habilita la terminación automática mediante una política de terminación automática. Algunas métricas solo están disponibles para las versiones 6.4.0 y posteriores de Amazon EMR. Para obtener más información acerca de la terminación automática, consulte Uso de una política de finalización automática para la limpieza de clústeres de Amazon EMR..

Métrica Description (Descripción)

Métrica	Description (Descripción)
`TotalNotebookKernels`	El número total de kernels de cuadernos en ejecución e inactivos del clúster. Esta métrica solo está disponible para las versiones 6.4.0 y posteriores de Amazon EMR.
`AutoTerminationIsClusterIdle`	Indica si el clúster está en uso. Un valor de 0 indica que el clúster está siendo utilizado activamente por uno de los siguientes componentes: Una aplicación YARN HDFS Un cuaderno Una interfaz de usuario integrada en el clúster, como el servidor del historial de Spark Un valor de 1 indica que el clúster está inactivo. Amazon EMR comprueba la inactividad continua de los clústeres (`AutoTerminationIsClusterIdle` = 1). Cuando el tiempo de inactividad de un clúster es igual al valor de `IdleTimeout` de su política de terminación automática, Amazon EMR termina el clúster.

TotalNotebookKernels

El número total de kernels de cuadernos en ejecución e inactivos del clúster.

Esta métrica solo está disponible para las versiones 6.4.0 y posteriores de Amazon EMR.

AutoTerminationIsClusterIdle

Indica si el clúster está en uso.

Un valor de 0 indica que el clúster está siendo utilizado activamente por uno de los siguientes componentes:

Una aplicación YARN
HDFS
Un cuaderno
Una interfaz de usuario integrada en el clúster, como el servidor del historial de Spark

Un valor de 1 indica que el clúster está inactivo. Amazon EMR comprueba la inactividad continua de los clústeres (AutoTerminationIsClusterIdle = 1). Cuando el tiempo de inactividad de un clúster es igual al valor de IdleTimeout de su política de terminación automática, Amazon EMR termina el clúster.

Dimensiones para las métricas de Amazon EMR

Los datos de Amazon EMR se pueden filtrar mediante alguna de las dimensiones de la tabla siguiente.

Dimensión	Description (Descripción)
JobFlowId	El mismo que el ID del clúster, que es un identificador único de un clúster con el formato `j-XXXXXXXXXXXXX`. Puede encontrar este valor haciendo clic en el clúster en la consola de Amazon EMR.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

CloudWatch eventos y métricas de Amazon EMR

Monitorizar eventos