Monitorando EMR métricas da Amazon com CloudWatch - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitorando EMR métricas da Amazon com CloudWatch

As métricas são atualizadas a cada cinco minutos e coletadas e enviadas automaticamente CloudWatch para cada EMR cluster da Amazon. Esse intervalo não é configurável. Não há cobrança pelas EMR métricas da Amazon relatadas em CloudWatch. Essas métricas de ponto de dados de cinco minutos são arquivadas por 63 dias, e os dados são descartados após esse período.

Como faço para usar as EMR métricas da Amazon?

A tabela a seguir mostra os usos comuns das métricas relatadas pela AmazonEMR. Essas são sugestões para você começar, e não uma lista abrangente. Para obter uma lista completa das métricas relatadas pela AmazonEMR, consulteMétricas relatadas pela Amazon EMR em CloudWatch.

Como eu faço para... Métricas relevantes
Controlar o progresso do meu cluster Examine as métricas RunningMapTasks, RemainingMapTasks, RunningReduceTasks e RemainingReduceTasks.
Detectar clusters ociosos A métrica IsIdle controla se um cluster está ativo, mas não executando tarefas no momento. Você pode definir um alarme a ser disparado quando o cluster permanecer ocioso por um determinado tempo, como trinta minutos.
Detectar quando um nó fica sem armazenamento A MRUnhealthyNodes métrica rastreia quando um ou mais nós principais ou de tarefas ficam sem armazenamento em disco local e fazem a transição para um UNHEALTHY YARN estado. Por exemplo, os nós centrais ou de tarefa estão com pouco espaço em disco e não poderão executar tarefas.
Detectar quando um cluster fica sem armazenamento A HDFSUtilization métrica monitora a HDFS capacidade combinada do cluster e pode exigir o redimensionamento do cluster para adicionar mais nós principais. Por exemplo, a HDFS utilização é alta, o que pode afetar as tarefas e a integridade do cluster.
Detectar quando um cluster está em execução com capacidade reduzida A métrica MRLostNodes rastreia quando um ou mais nós centrais ou de tarefa não conseguem se comunicar com o nó principal. Por exemplo, o nó principal não consegue acessar o nó central ou de tarefa.

Para obter mais informações, consulte O EMR cluster da Amazon termina com NO_ _ LEFT e nós principais SLAVE _BY_ FAILED MASTER e AWSSupport-A nalyzeEMRLogs.

CloudWatch Métricas de acesso para a Amazon EMR

Você pode visualizar as métricas que a Amazon EMR reporta CloudWatch usando o EMR console da Amazon ou o CloudWatch console. Você também pode recuperar métricas usando o CloudWatch CLI comando mon-get-stats ou o. CloudWatch GetMetricStatistics API Para obter mais informações sobre como visualizar ou recuperar métricas para EMR uso da Amazon CloudWatch, consulte o Guia do CloudWatch usuário da Amazon.

Console
Para exibir as métricas usando o console
  1. Faça login no e abra AWS Management Console o EMR console da Amazon em https://console.aws.amazon.com/emr.

  2. EC2Em EMRAtivado, no painel de navegação esquerdo, escolha Clusters e, em seguida, escolha o cluster do qual você deseja visualizar as métricas. Isso abrirá a página de detalhes do cluster.

  3. Selecione a guia Monitoramento da página de detalhes do cluster. Escolha qualquer uma das opções Status do cluster, Status do nó ou Entradas e saídas para carregar os relatórios sobre o progresso e a integridade do cluster.

  4. Após escolher uma métrica para visualizar, você poderá aumentar cada grafo. Para filtrar o período de tempo do grafo, selecione uma opção pré-preenchida ou escolha Personalizado.

Métricas relatadas pela Amazon EMR em CloudWatch

As tabelas a seguir listam as métricas que a Amazon EMR reporta no console e para CloudWatch as quais envia.

EMRMétricas da Amazon

EMRA Amazon envia dados de várias métricas para CloudWatch. Todos os EMR clusters da Amazon enviam métricas automaticamente em intervalos de cinco minutos. As métricas são arquivadas por duas semanas. Depois desse período, os dados serão descartados.

O namespace AWS/ElasticMapReduce inclui as métricas a seguir.

nota

A Amazon EMR extrai métricas de um cluster. Se um cluster torna-se inacessível, nenhuma métrica é relatada até que o cluster fique disponível novamente.

As métricas a seguir estão disponíveis para clusters que executam o Hadoop versões 2.x.

Métrica Descrição
Status do cluster

IsIdle

Indica que um cluster não está mais executando nenhum trabalho, mas ainda está ativo e acumulando cobranças. É definido como 1 se nenhuma tarefa ou nenhum trabalho estiver em execução, caso contrário, é definido como 0. Esse valor é verificado em intervalos de 5 minutos, sendo que um valor de 1 indica somente que o cluster estava ocioso no momento da verificação, e não que ele ficou ocioso durante todo o período de 5 minutos. Para evitar falsos positivos, você deve gerar um alerta quando esse valor for 1 em mais de uma verificação consecutiva de 5 minutos. Por exemplo, você pode gerar um alerta para esse valor se ele for 1 por 30 minutos ou mais.

Caso de uso: monitorar a performance do cluster

Unidade: booliano

ContainerAllocated

O número de contêineres de recursos alocados peloResourceManager.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

ContainerReserved

O número de contêineres reservados.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

ContainerPending

O número de contêineres na fila que ainda não foram alocados.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

ContainerPendingRatio

A proporção de contêineres pendentes em relação aos contêineres alocados (ContainerPendingRatio = ContainerPending / ContainerAllocated). Se ContainerAllocated = 0, então ContainerPendingRatio =ContainerPending. O valor de ContainerPendingRatio representa um número, não uma porcentagem. Esse valor é útil para escalonar recursos de cluster com base no comportamento de alocação do contêiner.

Unidades: Contagem

AppsCompleted

O número de inscrições enviadas YARN que foram concluídas.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

AppsFailed

O número de inscrições enviadas YARN que não foram concluídas.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

AppsKilled

O número de inscrições enviadas YARN a ela foram eliminadas.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

AppsPending

O número de solicitações enviadas YARN a ela está em um estado pendente.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

AppsRunning

O número de inscrições enviadas para YARN isso estão em execução.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

AppsSubmitted

O número de inscrições enviadas paraYARN.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

Status do nó

CoreNodesRunning

O número de nós core em funcionamento. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

CoreNodesPending

O número de nós core aguardando atribuição. Todos os nós core solicitados podem não estar disponíveis imediatamente; essa métrica reporta as solicitações pendentes. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

LiveDataNodes

A porcentagem de nós de dados que estão recebendo trabalho do Hadoop.

Caso de uso: monitorar a integridade do cluster

Unidade: percentual

MRTotalNodes

O número de nós atualmente disponíveis para MapReduce trabalhos. Equivalente à YARN métricamapred.resourcemanager.TotalNodes.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MRActiveNodes

O número de nós atualmente executando MapReduce tarefas ou trabalhos. Equivalente à YARN métricamapred.resourcemanager.NoOfActiveNodes.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MRLostNodes

O número de nós alocados MapReduce que foram marcados em um LOST estado. Equivalente à YARN métricamapred.resourcemanager.NoOfLostNodes.

Caso de uso: monitorar a integridade do cluster, monitorar o progresso do cluster

Unidades: Contagem

MRUnhealthyNodes

O número de nós disponíveis para MapReduce trabalhos marcados em um UNHEALTHY estado. Equivalente à YARN métricamapred.resourcemanager.NoOfUnhealthyNodes.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MRDecommissionedNodes

O número de nós alocados para MapReduce aplicativos que foram marcados em um DECOMMISSIONED estado. Equivalente à YARN métricamapred.resourcemanager.NoOfDecommissionedNodes.

Caso de uso: monitorar a integridade do cluster, monitorar o progresso do cluster

Unidades: Contagem

MRRebootedNodes

O número de nós disponíveis MapReduce que foram reinicializados e marcados em um REBOOTED estado. Equivalente à YARN métricamapred.resourcemanager.NoOfRebootedNodes.

Caso de uso: monitorar a integridade do cluster, monitorar o progresso do cluster

Unidades: Contagem

MultiMasterInstanceGroupNodesRunning

O número de nós principais em execução.

Caso de uso: monitorar falhas do nó principal e substituição

Unidades: Contagem

MultiMasterInstanceGroupNodesRunningPercentage

A porcentagem de nós principais em execução sobre a contagem solicitada de instâncias de nós principais.

Caso de uso: monitorar falhas do nó principal e substituição

Unidade: percentual

MultiMasterInstanceGroupNodesRequested

O número de nós principais solicitados.

Caso de uso: monitorar falhas do nó principal e substituição

Unidades: Contagem

IO

S3 BytesWritten

O número de bytes gravados no Amazon S3. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

S3 BytesRead

O número de bytes lidos no Amazon S3. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

HDFSUtilization

A porcentagem de HDFS armazenamento usada atualmente.

Caso de uso: analisar a performance do cluster

Unidade: percentual

HDFSBytesRead

O número de bytes lidos do HDFS. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

HDFSBytesWritten

O número de bytes gravados no HDFS. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

MissingBlocks

O número de blocos nos quais não HDFS tem réplicas. Esses podem ser blocos danificados.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

CorruptBlocks

O número de blocos que são HDFS relatados como corrompidos.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

TotalLoad

O número total de transferências simultâneas de dados.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

MemoryTotalMB

A quantidade total de memória no cluster.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MemoryReservedMB

A quantidade de memória reservada.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MemoryAvailableMB

A quantidade de memória disponível para ser alocada.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

YARNMemoryAvailablePercentage

A porcentagem de memória restante disponível para YARN (YARNMemoryAvailablePercentage= MemoryAvailable MB/MemoryTotalMB). Esse valor é útil para escalar os recursos do cluster com base no uso da YARN memória.

Unidade: percentual

MemoryAllocatedMB

A quantidade de memória alocada para o cluster.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

PendingDeletionBlocks

O número de blocos marcados para exclusão.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

UnderReplicatedBlocks

O número de blocos que precisam ser replicados uma ou mais vezes.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

DfsPendingReplicationBlocks

O status da replicação de bloco: blocos sendo replicados, idade das solicitações de replicação e solicitações de replicação sem sucesso.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

CapacityRemainingGB

A quantidade de capacidade restante HDFS do disco.

Caso de uso: monitorar o progresso do cluster, monitorar a integridade do cluster

Unidades: Contagem

Veja a seguir as métricas do Hadoop 1:

Métrica Descrição
Status do cluster

IsIdle

Indica que um cluster não está mais executando nenhum trabalho, mas ainda está ativo e acumulando cobranças. É definido como 1 se nenhuma tarefa ou nenhum trabalho estiver em execução, caso contrário, é definido como 0. Esse valor é verificado em intervalos de 5 minutos, sendo que um valor de 1 indica somente que o cluster estava ocioso no momento da verificação, e não que ele ficou ocioso durante todo o período de 5 minutos. Para evitar falsos positivos, você deve gerar um alerta quando esse valor for 1 em mais de uma verificação consecutiva de 5 minutos. Por exemplo, você pode gerar um alerta para esse valor se ele for 1 por 30 minutos ou mais.

Caso de uso: monitorar a performance do cluster

Unidade: booliano

JobsRunning

O número de trabalhos no cluster que estão em execução no momento.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

JobsFailed

O número de trabalhos no cluster que apresentaram falha.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

Map/Reduce

MapTasksRunning

O número de tarefas de mapeamento em execução para cada trabalho. Se você tiver um programador instalado e vários trabalhos em execução, vários gráficos são gerados.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MapTasksRemaining

O número de tarefas de mapeamento restantes para cada trabalho. Se você tiver um programador instalado e vários trabalhos em execução, vários gráficos são gerados. Uma tarefa de mapeamento restante não está em nenhum dos seguintes estados: Running, Killed ou Completed.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

MapSlotsOpen

A capacidade não utilizada da tarefa de mapeamento. É calculado como o número máximo de tarefas de mapeamento para um determinado cluster, menos o número total de tarefas de mapeamento em execução no momento nesse cluster.

Caso de uso: analisar a performance do cluster

Unidades: Contagem

RemainingMapTasksPerSlot

A razão entre o total de tarefas de mapeamento restantes e o total de slots de mapeamento disponíveis no cluster.

Caso de uso: analisar a performance do cluster

Unidade: razão

ReduceTasksRunning

O número de tarefas de redução em execução para cada trabalho. Se você tiver um programador instalado e vários trabalhos em execução, vários gráficos são gerados.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

ReduceTasksRemaining

O número de tarefas de redução restantes para cada trabalho. Se você tiver um programador instalado e vários trabalhos em execução, vários gráficos são gerados.

Caso de uso: monitorar o progresso do cluster

Unidades: Contagem

ReduceSlotsOpen

Capacidade não utilizada das tarefas de redução. É calculado como a capacidade máxima da tarefa de redução para um determinado cluster, menos o número total de tarefas de redução em execução no momento nesse cluster.

Caso de uso: analisar a performance do cluster

Unidades: Contagem

Status do nó

CoreNodesRunning

O número de nós core em funcionamento. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

CoreNodesPending

O número de nós core aguardando atribuição. Todos os nós core solicitados podem não estar disponíveis imediatamente; essa métrica reporta as solicitações pendentes. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

LiveDataNodes

A porcentagem de nós de dados que estão recebendo trabalho do Hadoop.

Caso de uso: monitorar a integridade do cluster

Unidade: percentual

TaskNodesRunning

O número de nós da tarefa trabalhando. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

TaskNodesPending

O número de nós de tarefa aguardando atribuição. Todos os nós de tarefa solicitados podem não estar disponíveis imediatamente; essa métrica reporta as solicitações pendentes. Os pontos de dados para essa métrica são relatados somente quando existe um grupo de instâncias correspondente.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

LiveTaskTrackers

O percentual dos rastreadores de tarefas que estão funcionando.

Caso de uso: monitorar a integridade do cluster

Unidade: percentual

IO

S3 BytesWritten

O número de bytes gravados no Amazon S3. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

S3 BytesRead

O número de bytes lidos no Amazon S3. Essa métrica agrega somente MapReduce trabalhos e não se aplica a outras cargas de trabalho na Amazon. EMR

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

HDFSUtilization

A porcentagem de HDFS armazenamento usada atualmente.

Caso de uso: analisar a performance do cluster

Unidade: percentual

HDFSBytesRead

O número de bytes lidos do HDFS.

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

HDFSBytesWritten

O número de bytes gravados no HDFS.

Caso de uso: analisar a performance do cluster, monitorar o progresso do cluster

Unidades: Contagem

MissingBlocks

O número de blocos nos quais não HDFS tem réplicas. Esses podem ser blocos danificados.

Caso de uso: monitorar a integridade do cluster

Unidades: Contagem

TotalLoad

O número total atual de leitores e escritores relatados por todos DataNodes em um cluster.

Caso de uso: diagnostique até que ponto a alta taxa de E/S pode continuar contribuindo para o desempenho insatisfatório da execução do trabalho. Os nós de trabalho que executam o DataNode daemon também devem realizar tarefas de mapeamento e redução. TotalLoad Valores persistentemente altos ao longo do tempo podem indicar que a alta E/S pode ser um fator que contribui para o baixo desempenho. Os picos ocasionais nesse valor são típicos e geralmente não são indícios de problema.

Unidades: Contagem

Métricas de capacidade de cluster

As métricas a seguir indicam as capacidades atuais ou de destino de um cluster. Essas métricas só estão disponíveis quando o ajuste de escala gerenciado ou o término automático estão habilitados.

Para clusters compostos por frotas de instâncias, as métricas de capacidade de cluster são medidas em Units. Para clusters compostos por grupos de instâncias, as métricas de capacidade de cluster são medidas em Nodes ou VCPU com base no tipo de unidade usado na política de escalabilidade gerenciada. Para obter mais informações, consulte Usando escalabilidade EMR gerenciada no Amazon EMR Management Guide.

Métrica Descrição
  • TotalUnitsRequested

  • TotalNodesRequested

  • TotalVCPURequested

O número total alvo de units/nodes/vCPUs em um cluster, conforme determinado pelo escalonamento gerenciado.

Unidades: Contagem

  • TotalUnitsRunning

  • TotalNodesRunning

  • TotalVCPURunning

O número total atual de units/nodes/vCPUs disponíveis em um cluster em execução. Quando um redimensionamento de cluster for solicitado, essa métrica será atualizada depois que as novas instâncias forem adicionadas ou removidas do cluster.

Unidades: Contagem

  • CoreUnitsRequested

  • CoreNodesRequested

  • CoreVCPURequested

O número alvo de CORE units/nodes/vCPUs em um cluster, conforme determinado pelo escalonamento gerenciado.

Unidades: Contagem

  • CoreUnitsRunning

  • CoreNodesRunning

  • CoreVCPURunning

O número atual de CORE units/nodes/vCPUs execuções em um cluster.

Unidades: Contagem

  • TaskUnitsRequested

  • TaskNodesRequested

  • TaskVCPURequested

O número alvo de TASK units/nodes/vCPUs em um cluster, conforme determinado pelo escalonamento gerenciado.

Unidades: Contagem

  • TaskUnitsRunning

  • TaskNodesRunning

  • TaskVCPURunning

O número atual de TASK units/nodes/vCPUs execuções em um cluster.

Unidades: Contagem

A Amazon EMR emite as seguintes métricas em uma granularidade de um minuto quando você ativa o encerramento automático usando uma política de encerramento automático. Algumas métricas estão disponíveis somente para EMR as versões 6.4.0 e posteriores da Amazon. Para saber mais sobre término automático, consulte Usando uma política de encerramento automático para limpeza de EMR clusters da Amazon.

Métrica Descrição
TotalNotebookKernels O total de kernels de cadernos em execução e ociosos no cluster.

Essa métrica está disponível somente para EMR as versões 6.4.0 e posteriores da Amazon.

AutoTerminationIsClusterIdle Indica se o cluster está em uso.

O valor 0 indica que o cluster está sendo usado ativamente por um destes componentes:

  • Um YARN aplicativo

  • HDFS

  • Um caderno

  • Uma interface de usuário no cluster, como Spark History Server

O valor 1 indica que o cluster está ocioso. A Amazon EMR verifica a ociosidade contínua do cluster (AutoTerminationIsClusterIdle= 1). Quando o tempo ocioso de um cluster é igual ao IdleTimeout valor em sua política de encerramento automático, a Amazon EMR encerra o cluster.

Dimensões para EMR métricas da Amazon

EMROs dados da Amazon podem ser filtrados usando qualquer uma das dimensões na tabela a seguir.

Dimensão Descrição
JobFlowId Igual ao ID do cluster, que é o identificador exclusivo de um cluster no formato j-XXXXXXXXXXXXX. Encontre esse valor clicando no cluster no EMR console da Amazon.