Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio delle EMR metriche di Amazon con CloudWatch
Le metriche vengono aggiornate ogni cinque minuti e raccolte e inviate automaticamente CloudWatch per ogni cluster AmazonEMR. Questo intervallo non è configurabile. Non è previsto alcun addebito per i EMR parametri Amazon riportati in CloudWatch. I parametri di datapoint di cinque minuti vengono tenuti in archivio per 63 giorni, dopodiché vengono eliminati.
Come faccio a usare i EMR parametri di Amazon?
La tabella seguente mostra gli usi comuni delle metriche riportate da AmazonEMR. Questi suggerimenti sono solo introduttivi e non costituiscono un elenco completo. Per un elenco completo delle metriche riportate da AmazonEMR, consultaMetriche riportate da Amazon EMR in CloudWatch.
Come...? | Parametri rilevanti |
---|---|
Monitorare l'avanzamento del cluster | Esaminare i parametri RunningMapTasks , RemainingMapTasks , RunningReduceTasks e RemainingReduceTasks . |
Rilevare cluster inattivi | Il parametro IsIdle verifica se un cluster è attivo anche se non esegue attività. È possibile impostare un allarme di modo che venga attivato quando il cluster è rimasto inattivo per un determinato periodo di tempo, ad esempio 30 minuti. |
Rilevare quando la capacità di storage di un nodo è esaurita | La MRUnhealthyNodes metrica rileva quando uno o più nodi principali o di attività esauriscono lo spazio di archiviazione su disco locale e passano a uno UNHEALTHY YARN stato. Ad esempio, i nodi principali o attività stanno esaurendo spazio su disco e non saranno in grado di eseguire attività. |
Rileva quando un cluster esaurisce la capacità d'archiviazione | La HDFSUtilization metrica monitora la HDFS capacità combinata del cluster e può richiedere il ridimensionamento del cluster per aggiungere altri nodi principali. Ad esempio, l'HDFSutilizzo è elevato, il che può influire sui lavori e sullo stato del cluster. |
Rileva quando un cluster è in esecuzione a capacità ridotta | Il parametro MRLostNodes tiene traccia quando uno o più nodi principali o attività non sono in grado di comunicare con il nodo master. Ad esempio, il nodo principale o attività non è raggiungibile dal nodo master. |
Per ulteriori informazioni, vedere Il cluster termina con NO_ _ LEFT e i nodi principali SLAVE _BY_ FAILED MASTER e AWSSupport-A nalyzeEMRLogs.
Accedi alle CloudWatch metriche per Amazon EMR
Puoi visualizzare le metriche che Amazon EMR riporta sull' CloudWatch utilizzo della EMR console Amazon o della CloudWatch console. Puoi anche recuperare le metriche utilizzando il CloudWatch CLI comando mon-get-stats
o il. CloudWatch GetMetricStatistics
API Per ulteriori informazioni sulla visualizzazione o il recupero delle metriche per l'EMRutilizzo di Amazon CloudWatch, consulta la Amazon CloudWatch User Guide.
Metriche riportate da Amazon EMR in CloudWatch
Le tabelle seguenti elencano le metriche che Amazon EMR riporta nella console e a cui invia i dati. CloudWatch
EMRMetriche Amazon
Amazon EMR invia dati per diverse metriche a CloudWatch. Tutti i EMR cluster Amazon inviano automaticamente i parametri a intervalli di cinque minuti. I parametri sono conservati per due settimane; dopo tale periodo, i dati vengono eliminati.
Lo spazio dei nomi AWS/ElasticMapReduce
include i parametri descritti di seguito.
Nota
Amazon EMR estrae i parametri da un cluster. Se un cluster diventa inaccessibile, non viene indicato alcun parametro fino a che il cluster non è di nuovo disponibile.
I seguenti parametri sono disponibili per i cluster sui quali sono in esecuzione le versioni 2.x di Hadoop.
Parametro | Descrizione |
---|---|
Stato del cluster | |
IsIdle |
Indica che un cluster non è più in esecuzione ma è ancora attivo e genera spese. È impostato su 1 se non vi sono task e processi in esecuzione, altrimenti è impostato su 0. Questo valore viene verificato a intervalli di cinque minuti e un valore 1 indica unicamente l'inattività del cluster al momento della verifica e non durante i cinque minuti. Per evitare falsi positivi, devi attivare un allarme quando questo valore è 1 durante due o più verifiche consecutive di cinque minuti. Ad esempio, puoi attivare un allarme se questo valore è 1 per trenta minuti o più. Caso d'uso: monitorare le prestazioni del cluster Unità: booleane |
ContainerAllocated |
Il numero di contenitori di risorse allocati da. ResourceManager Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
ContainerReserved |
Il numero di container riservati. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
ContainerPending |
Il numero di container nella coda non ancora allocati. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
ContainerPendingRatio |
Il rapporto tra contenitori in sospeso e contenitori allocati (ContainerPendingRatio = ContainerPending /). ContainerAllocated Se ContainerAllocated = 0, allora ContainerPendingRatio =. ContainerPending Il valore di ContainerPendingRatio rappresenta un numero, non una percentuale. Questo valore è utile per il dimensionamento delle risorse del cluster in funzione del comportamento di attribuzione dei container. Unità: numero |
AppsCompleted |
Il numero di candidature inviate a YARN tale richiesta sono state completate. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
AppsFailed |
Il numero di domande presentate non è stato completato. YARN Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
AppsKilled |
Il numero di domande presentate YARN è stato annullato. Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
AppsPending |
Il numero di domande presentate YARN è in sospeso. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
AppsRunning |
Il numero di candidature inviate YARN sono in esecuzione. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
AppsSubmitted |
Il numero di candidature presentate aYARN. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
Stato del nodo | |
CoreNodesRunning |
Il numero di nodi principali attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
CoreNodesPending |
Il numero di nodi principali in attesa di assegnazione. È possibile che non tutti i nodi principali richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
LiveDataNodes |
La percentuale di nodi dati che ricevono attività da Hadoop. Caso d'uso: monitorare lo stato del cluster Unità: percentuale |
MRTotalNodes |
Il numero di nodi attualmente disponibili per le MapReduce offerte di lavoro. Equivalente alla YARN metrica Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MRActiveNodes |
Il numero di nodi che attualmente eseguono MapReduce attività o lavori. Equivalente alla YARN metrica Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MRLostNodes |
Il numero di nodi ad MapReduce esso assegnati sono stati contrassegnati in uno LOST stato. Equivalente alla YARN metrica Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster Unità: numero |
MRUnhealthyNodes |
Il numero di nodi disponibili per i MapReduce lavori contrassegnati in uno UNHEALTHY stato. Equivalente alla YARN metrica Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MRDecommissionedNodes |
Il numero di nodi assegnati alle MapReduce applicazioni che sono state contrassegnate in uno DECOMMISSIONED stato. Equivalente alla YARN metrica Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster Unità: numero |
MRRebootedNodes |
Il numero di nodi disponibili MapReduce che sono stati riavviati e contrassegnati in uno stato. REBOOTED Equivalente alla metrica. YARN Caso d'uso: monitorare lo stato del cluster, monitorare l'avanzamento del cluster Unità: numero |
MultiMasterInstanceGroupNodesRunning |
Il numero di nodi master in esecuzione. Caso d'uso: monitorare l'errore e la sostituzione del nodo master Unità: numero |
MultiMasterInstanceGroupNodesRunningPercentage |
La percentuale di nodi master in esecuzione sul numero dell'istanza del nodo master richiesto. Caso d'uso: monitorare l'errore e la sostituzione del nodo master Unità: percentuale |
MultiMasterInstanceGroupNodesRequested |
Il numero di nodi master richiesti. Caso d'uso: monitorare l'errore e la sostituzione del nodo master Unità: numero |
IO | |
S3 BytesWritten |
Il numero di byte scritti su Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
S3 BytesRead |
Il numero di byte letti da Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
HDFSUtilization |
La percentuale di HDFS storage attualmente utilizzata. Caso d'uso: analizzare le prestazioni del cluster Unità: percentuale |
HDFSBytesRead |
Il numero di byte da cui vengono letti. HDFS Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
HDFSBytesWritten |
Il numero di byte scritti su. HDFS Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
MissingBlocks |
Il numero di blocchi in cui non sono presenti replicheHDFS. Possono essere blocchi danneggiati. Caso d'uso: monitorare lo stato del cluster Unità: numero |
CorruptBlocks |
Il numero di blocchi HDFS segnalati come danneggiati. Caso d'uso: monitorare lo stato del cluster Unità: numero |
TotalLoad |
Il numero totale di trasferimenti di dati simultanei. Caso d'uso: monitorare lo stato del cluster Unità: numero |
MemoryTotalMB |
La quantità totale di memoria nel cluster. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MemoryReservedMB |
La quantità di memoria riservata. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MemoryAvailableMB |
La quantità di memoria disponibile da allocare. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
YARNMemoryAvailablePercentage |
La percentuale di memoria rimanente disponibile per YARN (YARNMemoryAvailablePercentage= MemoryAvailable MB/ MemoryTotal MB). Questo valore è utile per scalare le risorse del cluster in base all'utilizzo YARN della memoria. Unità: percentuale |
MemoryAllocatedMB |
La quantità di memoria allocata al cluster. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
PendingDeletionBlocks |
Il numero di blocchi contrassegnati per l'eliminazione. Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
UnderReplicatedBlocks |
Il numero di blocchi che devono essere replicati una o più volte. Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
DfsPendingReplicationBlocks |
Lo stato della replica dei blocchi: blocchi in corso di replica, età delle richieste di replica e richieste di replica non riuscite. Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
CapacityRemainingGB |
La quantità di capacità residua HDFS del disco. Caso d'uso: monitorare l'avanzamento del cluster, monitorare lo stato del cluster Unità: numero |
Di seguito sono descritti i parametri Hadoop 1:
Parametro | Descrizione |
---|---|
Stato del cluster | |
IsIdle |
Indica che un cluster non è più in esecuzione ma è ancora attivo e genera spese. È impostato su 1 se non vi sono task e processi in esecuzione, altrimenti è impostato su 0. Questo valore viene verificato a intervalli di cinque minuti e un valore 1 indica unicamente l'inattività del cluster al momento della verifica e non durante i cinque minuti. Per evitare falsi positivi, devi attivare un allarme quando questo valore è 1 durante due o più verifiche consecutive di cinque minuti. Ad esempio, puoi attivare un allarme se questo valore è 1 per trenta minuti o più. Caso d'uso: monitorare le prestazioni del cluster Unità: booleane |
JobsRunning |
Il numero di processi nel cluster attualmente in esecuzione. Caso d'uso: monitorare lo stato del cluster Unità: numero |
JobsFailed |
Il numero di processi nel cluster non riusciti. Caso d'uso: monitorare lo stato del cluster Unità: numero |
Mappatura/Riduzione | |
MapTasksRunning |
Il numero di task di mappatura in esecuzione per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MapTasksRemaining |
Il numero di task di mappatura rimanenti per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici. Un task di mappatura rimanente è un task il cui stato non è Running, Killed o Completed. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
MapSlotsOpen |
La capacità dei task di mappatura non utilizzata. Viene calcolata come numero massimo di task di mappatura per un determinato cluster, meno il numero totale di task di mappatura attualmente in esecuzione in quel cluster. Caso d'uso: analizzare le prestazioni del cluster Unità: numero |
RemainingMapTasksPerSlot |
La proporzione tra i task di mappatura totali rimanenti e gli slot di mappatura totali disponibili nel cluster. Caso d'uso: analizzare le prestazioni del cluster Unità: proporzione |
ReduceTasksRunning |
Il numero di task di riduzione in esecuzione per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
ReduceTasksRemaining |
Il numero di task di riduzione rimanenti per ogni processo. Se hai un pianificatore installato e molteplici processi in esecuzione, vengono generati più grafici. Caso d'uso: monitorare l'avanzamento del cluster Unità: numero |
ReduceSlotsOpen |
La capacità dei task di riduzione non utilizzata. Viene calcolata come capacità massima dei task di riduzione per un determinato cluster, meno il numero di task di riduzione attualmente in esecuzione in quel cluster. Caso d'uso: analizzare le prestazioni del cluster Unità: numero |
Stato del nodo | |
CoreNodesRunning |
Il numero di nodi principali attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
CoreNodesPending |
Il numero di nodi principali in attesa di assegnazione. È possibile che non tutti i nodi principali richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
LiveDataNodes |
La percentuale di nodi dati che ricevono attività da Hadoop. Caso d'uso: monitorare lo stato del cluster Unità: percentuale |
TaskNodesRunning |
Il numero di nodi di task attivi. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
TaskNodesPending |
Il numero di nodi di task in attesa di assegnazione. È possibile che non tutti i nodi di task richiesti siano immediatamente disponibili; questo parametro indica le richieste in attesa. I punti dati per questo parametro sono indicati solo se esiste un gruppo di istanze corrispondente. Caso d'uso: monitorare lo stato del cluster Unità: numero |
LiveTaskTrackers |
La percentuale di tracker di task operativi. Caso d'uso: monitorare lo stato del cluster Unità: percentuale |
IO | |
S3 BytesWritten |
Il numero di byte scritti su Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
S3 BytesRead |
Il numero di byte letti da Amazon S3. Questa metrica aggrega solo i MapReduce lavori e non si applica ad altri carichi di lavoro su Amazon. EMR Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
HDFSUtilization |
La percentuale di HDFS storage attualmente utilizzata. Caso d'uso: analizzare le prestazioni del cluster Unità: percentuale |
HDFSBytesRead |
Il numero di byte da cui vengono letti. HDFS Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
HDFSBytesWritten |
Il numero di byte scritti su. HDFS Caso d'uso: analizzare le prestazioni del cluster, monitorare l'avanzamento del cluster Unità: numero |
MissingBlocks |
Il numero di blocchi in cui non HDFS è presente alcuna replica. Possono essere blocchi danneggiati. Caso d'uso: monitorare lo stato del cluster Unità: numero |
TotalLoad |
Il numero totale attuale di lettori e scrittori riportato da tutti DataNodes in un cluster. Caso d'uso: diagnosticare in quale misura un I/O elevato contribuisce al peggioramento delle prestazioni di esecuzione dei processi. I nodi di lavoro che eseguono il DataNode demone devono inoltre eseguire operazioni di mappatura e ridurre le attività. TotalLoad Valori costantemente elevati nel tempo possono indicare che un I/O elevato potrebbe contribuire a ridurre le prestazioni. Picchi occasionali di questo valore sono comuni e non indicano un problema. Unità: numero |
Parametri della capacità del cluster
i parametri seguenti indicano le capacità correnti o di destinazione di un cluster. Queste metriche sono disponibili solo quando sono abilitati il dimensionamento gestito o la terminazione automatica.
Per i cluster composti da parchi istanze, i parametri della capacità del cluster vengono misurate in Units
. Per i cluster composti da gruppi di istanze, i parametri della capacità del cluster vengono misurate in Nodes
o in VCPU
in base al tipo di unità utilizzato nella policy di dimensionamento gestito. Per ulteriori informazioni, consulta Using EMR -managed scaling nella Amazon EMR Management Guide.
Parametro | Descrizione |
---|---|
|
Il numero totale previsto di unità/nodi/ vCPUs in un cluster, determinato dalla scalabilità gestita. Unità: numero |
|
Il numero totale attuale di vCPUs unità/nodi/ disponibili in un cluster in esecuzione. Quando viene richiesto il ridimensionamento di un cluster, questo parametro verrà aggiornato dopo l'aggiunta o la rimozione delle nuove istanze dal cluster. Unità: numero |
|
Il numero target di CORE unità/nodi/ in un cluster, determinato dalla scalabilità vCPUs gestita. Unità: numero |
|
Il numero attuale di CORE vCPUs unità/nodi/in esecuzione in un cluster. Unità: numero |
|
Il numero target di TASK unità/nodi/ in un cluster, determinato dalla scalabilità vCPUs gestita. Unità: numero |
|
Il numero attuale di TASK vCPUs unità/nodi/in esecuzione in un cluster. Unità: numero |
Amazon EMR emette i seguenti parametri con una granularità di un minuto quando abiliti la terminazione automatica utilizzando una politica di terminazione automatica. Alcune metriche sono disponibili solo per EMR le versioni di Amazon 6.4.0 e successive. Per ulteriori informazioni sulla terminazione automatica, consulta Utilizzo di una politica di terminazione automatica per la pulizia del cluster.
Parametro | Descrizione |
---|---|
TotalNotebookKernels |
Il numero totale di kernel notebook in esecuzione e inattivi sul cluster. Questa metrica è disponibile solo per EMR le versioni Amazon 6.4.0 e successive. |
AutoTerminationIsClusterIdle |
Indica se il cluster è in uso. Un valore di 0 indica che il cluster è in uso attivo da uno dei seguenti componenti:
Un valore di 1 indica che il cluster è inattivo. Amazon EMR verifica l'inattività continua del cluster ( |
Dimensioni per i EMR parametri di Amazon
EMRI dati di Amazon possono essere filtrati utilizzando una qualsiasi delle dimensioni nella tabella seguente.
Dimensione | Descrizione |
---|---|
JobFlowId | Uguale all'ID del cluster che è l'identificatore univoco di un cluster nel formato j-XXXXXXXXXXXXX . Trova questo valore facendo clic sul cluster nella EMR console Amazon. |