Überwachung von Amazon-EMR-Metriken mit CloudWatch - Amazon EMR

Überwachung von Amazon-EMR-Metriken mit CloudWatch

Metriken werden alle fünf Minuten aktualisiert, automatisch gesammelt und mithilfe von Push an CloudWatch übertragen, um an jeden Amazon-EMR-Cluster verteilt zu werden. Dieses Intervall kann nicht konfiguriert werden. Für Amazon-EMR-Metriken, die über CloudWatch gemeldet werden, fallen keine Gebühren an. Diese fünfminütigen Datenpunktmetriken werden 63 Tage lang archiviert. Danach werden die Daten verworfen.

Wie verwende ich die Amazon-EMR-Metriken?

Die folgende Tabelle zeigt die häufigsten Verwendungen von Metriken, die von Amazon EMR gemeldet werden. Es handelt sich dabei um Vorschläge für den Einstieg und nicht um eine umfassende Liste. Eine Liste der gesamten Metriken, die von Amazon EMR gemeldet werden, finden Sie unter Von Amazon EMR in CloudWatch gemeldete Metriken.

Wie gehe ich vor? Relevante Metriken
Verfolgen des Cluster-Fortschritts Sehen Sie sich die Metriken RunningMapTasks, RemainingMapTasks, RunningReduceTasks und RemainingReduceTasks an.
Erkennen von Clustern im Leerlauf Die IsIdle-Metrik verfolgt, ob ein Cluster verfügbar ist, aber aktuell keine Aufgaben ausführt. Sie können einen Alarm einrichten, wenn sich der Cluster für einen bestimmten Zeitraum im Leerlauf befunden hat z. B. 30 Minuten.
Erkennen, wenn ein Knoten zu wenig Speicherplatz hat Die MRUnhealthyNodes-Metrik verfolgt, wann einem oder mehreren Core- oder Aufgabenknoten der lokale Festplattenspeicher ausgeht und sie in einen UNHEALTHY-YARN-Status übergehen. Zum Beispiel haben Core- oder Aufgabenknoten nur noch wenig Speicherplatz zur Verfügung und sie können keine Aufgaben ausführen.
Erkennen, wenn ein Cluster zu wenig Speicherplatz hat Die HDFSUtilization-Metrik überwacht die kombinierte HDFS-Kapazität des Clusters und kann eine Größenänderung des Clusters erfordern, um weitere Core-Knoten hinzuzufügen. Beispielsweise ist die HDFS-Auslastung hoch, was sich auf Aufträge und den Zustand des Clusters auswirken kann.
Erkennt, wenn ein Cluster mit reduzierter Kapazität läuft Die MRLostNodes-Metrik verfolgt, wann ein oder mehrere Core- oder Aufgabenknoten nicht mit dem Hauptknoten kommunizieren können. Beispielsweise ist der Core- oder Aufgabenknoten für den Hauptknoten nicht erreichbar.

Weitere Informationen finden Sie unter Cluster wird mit NO_SLAVE_LEFT und Core-Knoten mit FAILED_BY_MASTER beendet und AWSSupport-AnalyzeEMRLogs.

Für Amazon-CloudWatch-Metriken für Amazon EMR zugreifen

Sie können die Metriken, die Amazon EMR an CloudWatch meldet, über die Amazon-EMR-Konsole oder die CloudWatch-Konsole anzeigen. Sie können Metriken auch mit dem CloudWatch-CLI-Befehl mon-get-stats oder der CloudWatch-API GetMetricStatistics abrufen. Weitere Informationen zum Anzeigen oder Abrufen von Metriken für Amazon EMR mit CloudWatch finden Sie im Amazon-CloudWatch-Benutzerhandbuch.

Anmerkung

Wir haben die Amazon-EMR-Konsole neu gestaltet, um sie benutzerfreundlicher zu gestalten. Unter Was ist neu an der Konsole? erfahren Sie mehr über die Unterschiede zwischen der alten und der neuen Konsolenerfahrung.

New console
So zeigen Sie Metriken in der neuen Konsole an
  1. Melden Sie sich bei AWS Management Console an und öffnen Sie die Amazon-EMR-Konsole unter https://console.aws.amazon.com/emr.

  2. Wählen Sie im linken Navigationsbereich unter EMR in EC2 die Option Cluster und dann den Cluster aus, für den Sie die Metriken anzeigen möchten. Dadurch wird die Cluster-Detailseite geöffnet.

  3. Wählen Sie auf der Cluster-Detailseite die Registerkarte Überwachung aus. Wählen Sie eine der Optionen Clusterstatus, Knotenstatus oder Ein- und Ausgaben aus, um die Berichte über den Fortschritt und den Zustand des Clusters zu laden.

  4. Nachdem Sie eine Metrik zur Anzeige ausgewählt haben, können Sie jedes Diagramm vergrößern. Um den Zeitrahmen Ihres Diagramms zu filtern, wählen Sie eine vorausgefüllte Option oder wählen Sie Benutzerdefiniert.

Old console
So zeigen Sie Metriken in der alten Konsole an
  1. Öffnen Sie die Amazon-EMR-Konsole unterhttps://console.aws.amazon.com/elasticmapreduce/.

  2. Um die Metriken für einen Cluster anzuzeigen, wählen Sie einen Cluster aus, sodass der Bereich Summary (Übersicht) angezeigt wird.

  3. Wählen Sie Monitoring (Überwachung) aus, um Informationen zu diesem Cluster anzuzeigen. Wählen Sie eine der Registerkarten mit den Namen Clusterstatus, Zuordnen/Reduzieren, Knotenstatus oder EA, um die Berichte über den Fortschritt und den Zustand des Clusters zu laden.

  4. Nachdem Sie die gewünschte Metrik ausgewählt haben, können Sie ein Diagramm auswählen. Bearbeiten Sie die Felder Start und End (Ende), um die Metriken auf einen bestimmbaren Zeitrahmen zu filtern.

Von Amazon EMR in CloudWatch gemeldete Metriken

Die folgenden Tabellen listen alle Metriken auf, die Amazon EMR in der Konsole meldet und per Push an CloudWatch überträgt.

Amazon-EMR-Metriken

Amazon EMR sendet Daten für verschiedene Metriken an CloudWatch. Alle Amazon-EMR-Cluster senden automatisch Metriken in Intervallen von fünf Minuten. Die Metriken werden für zwei Wochen archiviert. Nach Ablauf dieses Zeitraums werden die Daten verworfen.

Der AWS/ElasticMapReduce-Namespace enthält die folgenden Metriken.

Anmerkung

Amazon EMR ruft Metriken aus einem Cluster ab. Wenn die Verbindung zu einem Cluster verloren geht, werden keine Metriken gemeldet, bis der Cluster wieder verfügbar ist.

Die folgenden Metriken sind für Cluster mit Hadoop 2.x -Versionen verfügbar.

Metrik Beschreibung
Cluster-Status

IsIdle

Gibt an, dass ein Cluster keine Arbeiten mehr ausführt, aber unverändert aktiv ist und Kosten verursacht. Der Wert beträgt 1, wenn weder Tasks noch Aufträge ausgeführt werden, andernfalls beträgt der Wert 0. Dieser Wert wird in 5-Minuten-Intervallen geprüft. Wenn der Wert 1 beträgt, bedeutet dies, dass der Cluster zum Zeitpunkt der Prüfung ungenutzt war, aber nicht die gesamten fünf Minuten. Um Falschmeldungen zu vermeiden, sollten Sie einen Alarm auslösen, wenn dieser Wert in mehreren aufeinander folgenden 5-Minuten-Prüfungen 1 beträgt. Sie können zum Beispiel einen Alarm auslösen, wenn dieser Wert 30 Minuten oder länger 1 beträgt.

Anwendungsfall: Cluster-Leistung überwachen

Einheiten: boolescher Wert

ContainerAllocated

Anzahl der vom ResourceManager zugeordneten Ressourcen-Container.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

ContainerReserved

Anzahl der reservierten Container.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

ContainerPending

Anzahl der Container in der Warteschlange, die noch nicht zugeordnet worden sind.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

ContainerPendingRatio

Verhältnis von ausstehenden Containern zu zugeordneten Containern (ContainerPendingRatio = ContainerPending / ContainerAllocated). Wenn ContainerAllocated = 0, dann ContainerPendingRatio = ContainerPending. Der Wert von ContainerPendingRatio ist eine Zahl, kein Prozentsatz. Dieser Wert ist zum Skalieren von Cluster-Ressourcen anhand des Zuordnungsverhaltens des Containers hilfreich.

Einheiten: Anzahl

AppsCompleted

Anzahl der an YARN übermittelten abgeschlossenen Anwendungen.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

AppsFailed

Anzahl der an YARN übermittelten Anwendungen, deren Abschluss fehlgeschlagen ist.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

AppsKilled

Anzahl der an YARN übermittelten Anwendungen, die beendet worden sind.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

AppsPending

Anzahl der an YARN übermittelten Anwendungen, die sich im ausstehenden Zustand befinden.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

AppsRunning

Anzahl der an YARN übermittelten Anwendungen, die ausgeführt werden.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

AppsSubmitted

Anzahl der an YARN übermittelten Anwendungen.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

Knotenstatus

CoreNodesRunning

Anzahl der arbeitenden Core-Knoten. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

CoreNodesPending

Anzahl der Core-Knoten, die auf eine Zuordnung warten. Es müssen nicht alle angeforderten Core-Knoten sofort verfügbar sein. Diese Metrik gibt die ausstehenden Anforderungen an. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

LiveDataNodes

Prozentsatz der Datenknoten, die Arbeit von Hadoop empfangen.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Prozent

MRTotalNodes

Anzahl der Knoten, die gegenwärtig für MapReduce-Aufträge verfügbar sind. Entspricht der YARN-Metrik mapred.resourcemanager.TotalNodes.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MRActiveNodes

Anzahl der Knoten, die gegenwärtig MapReduce-Tasks oder -Aufträge ausführen. Entspricht der YARN-Metrik mapred.resourcemanager.NoOfActiveNodes.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MRLostNodes

Anzahl der MapReduce zugeordneten Knoten, die mit dem Zustand "LOST" gekennzeichnet worden sind. Entspricht der YARN-Metrik mapred.resourcemanager.NoOfLostNodes.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

MRUnhealthyNodes

Anzahl der MapReduce-Aufträgen zur Verfügung stehenden Knoten, die mit dem Zustand "UNHEALTHY" gekennzeichnet sind. Entspricht der YARN-Metrik mapred.resourcemanager.NoOfUnhealthyNodes.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MRDecommissionedNodes

Anzahl der MapReduce-Anwendungen zugeordneten Knoten, die mit dem Zustand "DECOMISSIONED" gekennzeichnet worden sind. Entspricht der YARN-Metrik mapred.resourcemanager.NoOfDecommissionedNodes.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

MRRebootedNodes

Anzahl der MapReduce zur Verfügung stehenden Knoten, die neu gebootet und mit dem Zustand "REBOOTED" gekennzeichnet worden sind. Entspricht der YARN-Metrik mapred.resourcemanager.NoOfRebootedNodes.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

MultiMasterInstanceGroupNodesRunning

Die Anzahl der zurzeit ausgeführten Master-Knoten.

Anwendungsfall: Überwachen von Ausfall und Ersetzung eines Master-Knotens

Einheiten: Anzahl

MultiMasterInstanceGroupNodesRunningPercentage

Der Prozentsatz der zurzeit im Verhältnis zur angeforderten Instance-Zahl für Master-Knoten ausgeführten Master-Knoten.

Anwendungsfall: Überwachen von Ausfall und Ersetzung eines Master-Knotens

Einheiten: Prozent

MultiMasterInstanceGroupNodesRequested

Die Anzahl der angeforderten Master-Knoten.

Anwendungsfall: Überwachen von Ausfall und Ersetzung eines Master-Knotens

Einheiten: Anzahl

IO

S3ByteWritten

Anzahl der auf Amazon S3 geschriebenen Bytes. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

S3ByteRead

Anzahl der von Amazon S3 gelesenen Bytes. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

HDFSUtilization

Prozentsatz des gegenwärtig benutzten HDFS-Speichers.

Anwendungsfall: Cluster-Leistung analysieren

Einheiten: Prozent

HDFSByteRead

Anzahl der von HDFS gelesenen Byte. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

HDFSByteWritten

Anzahl der auf HDFS geschriebenen Byte. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

MissingBlocks

Anzahl der Blöcke, in denen HDFS keine Replicas hat. Hierbei kann es sich um beschädigte Blöcke handeln.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

CorruptBlocks

Anzahl der Blöcke, die von HDFS als beschädigt angegeben werden.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

TotalLoad

Gesamtanzahl der gleichzeitigen Datenübertragungen.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

MemoryTotalMB

Gesamtgröße des Speichers im Cluster.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MemoryReservedMB

Größe des reservierten Speichers.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MemoryAvailableMB

Verfügbarer zuzuordnender Speicher.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

YARNMemoryAvailablePercentage

Prozentsatz des für YARN verbleibenden verfügbaren Speichers (YARNMemoryAvailablePercentage = MemoryAvailableMB / MemoryTotalMB). Dieser Wert ist zum Skalieren von Cluster-Ressourcen anhand der YARN-Speichernutzung hilfreich.

Einheiten: Prozent

MemoryAllocatedMB

Menge des dem Cluster zugeordneten Speichers.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

PendingDeletionBlocks

Anzahl der zum Löschen gekennzeichneten Blöcke.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

UnderReplicatedBlocks

Anzahl der Blöcke, die nochmals repliziert werden müssen.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

DfsPendingReplicationBlocks

Status der Blockreplikation: replizierte Blöcke, Alter der Replikationsanforderung und nicht erfolgreiche Replikationsanforderungen.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

CapacityRemainingGB

Gesamtbetrag der verbleibenden HDFS-Festplattenkapazität.

Anwendungsfall: Cluster-Fortschritt überwachen, Cluster-Zustand überwachen

Einheiten: Anzahl

Nachfolgend sind die Hadoop 1-Metriken aufgeführt:

Metrik Beschreibung
Cluster-Status

IsIdle

Gibt an, dass ein Cluster keine Arbeiten mehr ausführt, aber unverändert aktiv ist und Kosten verursacht. Der Wert beträgt 1, wenn weder Tasks noch Aufträge ausgeführt werden, andernfalls beträgt der Wert 0. Dieser Wert wird in 5-Minuten-Intervallen geprüft. Wenn der Wert 1 beträgt, bedeutet dies, dass der Cluster zum Zeitpunkt der Prüfung ungenutzt war, aber nicht die gesamten fünf Minuten. Um Falschmeldungen zu vermeiden, sollten Sie einen Alarm auslösen, wenn dieser Wert in mehreren aufeinander folgenden 5-Minuten-Prüfungen 1 beträgt. Sie können zum Beispiel einen Alarm auslösen, wenn dieser Wert 30 Minuten oder länger 1 beträgt.

Anwendungsfall: Cluster-Leistung überwachen

Einheiten: boolescher Wert

JobsRunning

Anzahl der Aufträge im Cluster, die gegenwärtig ausgeführt werden.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

JobsFailed

Anzahl der fehlgeschlagenen Aufträge im Cluster.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

Map/Reduce

MapTasksRunning

Anzahl der Map-Tasks für jeden Auftrag. Wenn Sie einen Scheduler installiert haben und mehrere Aufträge ausführen, werden mehrere Grafiken erstellt.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MapTasksRemaining

Anzahl der verbleibenden Map-Tasks für jeden Auftrag. Wenn Sie einen Scheduler installiert haben und mehrere Aufträge ausführen, werden mehrere Grafiken erstellt. Eine verbleibende Map-Task ist eine Task, die sich in keinem der folgenden Zustände befindet: Running, Killed oder Completed.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

MapSlotsOpen

Ungenutzte Kapazität für Map-Tasks. Dies wird als die maximale Anzahl von Map-Tasks für einen bestimmten Cluster abzüglich der Gesamtanzahl der gegenwärtig ausgeführten Map-Tasks in diesem Cluster berechnet.

Anwendungsfall: Cluster-Leistung analysieren

Einheiten: Anzahl

RemainingMapTasksPerSlot

Das Verhältnis der insgesamt verbleibenden Map-Tasks, bezogen auf die insgesamt verfügbaren Map-Slots im Cluster.

Anwendungsfall: Cluster-Leistung analysieren

Einheiten: Verhältnis

ReduceTasksRunning

Anzahl der laufenden Reduce-Tasks für jeden Auftrag. Wenn Sie einen Scheduler installiert haben und mehrere Aufträge ausführen, werden mehrere Grafiken erstellt.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

ReduceTasksRemaining

Anzahl der verbleibenden Reduce-Tasks für jeden Auftrag. Wenn Sie einen Scheduler installiert haben und mehrere Aufträge ausführen, werden mehrere Grafiken erstellt.

Anwendungsfall: Cluster-Fortschritt überwachen

Einheiten: Anzahl

ReduceSlotsOpen

Ungenutzte Kapazität für Reduce-Tasks. Dies wird als die maximale Anzahl von Reduce-Tasks für einen bestimmten Cluster abzüglich der Gesamtanzahl der gegenwärtig ausgeführten Reduce-Tasks in diesem Cluster berechnet.

Anwendungsfall: Cluster-Leistung analysieren

Einheiten: Anzahl

Knotenstatus

CoreNodesRunning

Anzahl der arbeitenden Core-Knoten. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

CoreNodesPending

Anzahl der Core-Knoten, die auf eine Zuordnung warten. Es müssen nicht alle angeforderten Core-Knoten sofort verfügbar sein. Diese Metrik gibt die ausstehenden Anforderungen an. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

LiveDataNodes

Prozentsatz der Datenknoten, die Arbeit von Hadoop empfangen.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Prozent

TaskNodesRunning

Anzahl der arbeitenden Aufgabenknoten. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

TaskNodesPending

Anzahl der Aufgabenknoten, die auf eine Zuordnung warten. Es müssen nicht alle angeforderten Aufgabenknoten sofort verfügbar sein. Diese Metrik gibt die ausstehenden Anforderungen an. Die Datenpunkte dieser Metrik werden nur dann angegeben, wenn die zugehörige Instance-Gruppe existiert.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

LiveTaskTrackers

Prozentsatz der funktionierenden Task-Tracker.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Prozent

IO

S3ByteWritten

Anzahl der auf Amazon S3 geschriebenen Bytes. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

S3ByteRead

Anzahl der von Amazon S3 gelesenen Bytes. Mit dieser Metrik werden nur MapReduce-Aufträge aggregiert und sie gilt nicht für andere Workloads unter Amazon EMR.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

HDFSUtilization

Prozentsatz des gegenwärtig benutzten HDFS-Speichers.

Anwendungsfall: Cluster-Leistung analysieren

Einheiten: Prozent

HDFSByteRead

Anzahl der von HDFS gelesenen Byte.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

HDFSByteWritten

Anzahl der auf HDFS geschriebenen Byte.

Anwendungsfall: Cluster-Leistung analysieren, Cluster-Fortschritt überwachen

Einheiten: Anzahl

MissingBlocks

Anzahl der Blöcke, in denen HDFS keine Replicas hat. Hierbei kann es sich um beschädigte Blöcke handeln.

Anwendungsfall: Cluster-Zustand überwachen

Einheiten: Anzahl

TotalLoad

Die aktuelle Gesamtzahl an Lesern und Schreibern, die von allen DataNodes in einem Cluster gemeldet werden.

Anwendungsfall: Diagnose des Grads, in dem ein hoher E/A-Wert zu einer schlechten Leistung bei der Job-Ausführung beitragen könnte. Worker-Knoten, die den DataNode-Daemon ausführen, müssen auch Zuordnungs- und Reduzierungsaufgaben ausführen. Dauerhaft hohe TotalLoad-Werte können darauf hinweisen, dass ein hoher E/A-Wert einer der Faktoren für eine schlechte Leistung sein könnte. Gelegentliche Spitzen in diesem Wert sind typisch und weisen in der Regel nicht auf ein Problem hin.

Einheiten: Anzahl

Cluster-Kapazitätsmetriken

Die folgenden Metriken geben die aktuelle oder Zielkapazitäten eines Clusters an. Diese Metriken sind nur verfügbar, wenn verwaltete Skalierung oder automatische Beendigung aktiviert ist.

Bei Clustern, die aus Instance-Flotten bestehen, werden die Cluster-Kapazitätsmetriken in Units gemessen. Bei Clustern, die aus Instance-Gruppen bestehen, werden die Clusterkapazitätsmetriken in Nodes oder VCPU basierend auf dem Einheitentyp gemessen, der in der Richtlinie für verwaltete Skalierung verwendet wird. Weitere Informationen finden Sie unter Verwenden der automatischen Skalierung im Amazon-EMR-Managementhandbuch.

Metrik Beschreibung
  • TotalUnitsRequested

  • TotalNodesRequested

  • TotalVCPURequested

Die Gesamtzahl von Einheiten/Knoten/vCPUs in einem Cluster, die durch die verwaltete Skalierung bestimmt wird.

Einheiten: Anzahl

  • TotalUnitsRunning

  • TotalNodesRunning

  • TotalVCPURunning

Die aktuelle Gesamtzahl der Einheiten/Knoten/vCPUs, die in einem ausgeführten Cluster verfügbar sind. Wenn eine Clustergrößenänderung angefordert wird, wird diese Metrik aktualisiert, nachdem die neuen Instances hinzugefügt oder aus dem Cluster entfernt wurden.

Einheiten: Anzahl

  • CoreUnitsRequested

  • CoreNodesRequested

  • CoreVCPURequested

Die Zielnummer der CORE-Einheiten/Knoten/vCPUs in einem Cluster, die durch die verwaltete Skalierung bestimmt wird.

Einheiten: Anzahl

  • CoreUnitsRunning

  • CoreNodesRunning

  • CoreVCPURunning

Die aktuelle Anzahl von CORE-Einheiten/Knoten/vCPUs, die in einem Cluster ausgeführt werden.

Einheiten: Anzahl

  • TaskUnitsRequested

  • TaskNodesRequested

  • TaskVCPURequested

Die Zielnummer der AUFGABEN-Einheiten/Knoten/vCPUs in einem Cluster, die durch die verwaltete Skalierung bestimmt wird.

Einheiten: Anzahl

  • TaskUnitsRunning

  • TaskNodesRunning

  • TaskVCPURunning

Die aktuelle Anzahl von AUFGABEN-Einheiten/Knoten/vCPUs, die in einem Cluster ausgeführt werden.

Einheiten: Anzahl

Amazon EMR gibt die folgenden Metriken mit einer Granularität von einer Minute aus, wenn Sie die automatische Kündigung mithilfe einer Richtlinie zur automatischen Kündigung aktivieren. Einige Metriken sind nur für Amazon-EMR-Versionen 6.4.0 und höher verfügbar. Weitere Informationen zur automatischen Beendigung finden Sie unter Verwenden einer Richtlinie zur automatischen Beendigung.

Metrik Beschreibung
TotalNotebookKernels Die Gesamtzahl der laufenden und inaktiven Notebook-Kernel auf dem Cluster.

Diese Metrik ist nur für Amazon-EMR-Versionen 6.4.0 und höher verfügbar.

AutoTerminationIsClusterIdle Gibt an, ob der Cluster verwendet wird.

Der Wert 0 gibt an, dass der Cluster von einer der folgenden Komponenten aktiv verwendet wird:

  • Eine YARN-Anwendung

  • HDFS

  • Ein Notebook

  • Eine Cluster-Benutzeroberfläche, z. B. der Spark History Server

Ein Wert von 1 gibt an, dass sich der Cluster im Leerlauf befindet. Amazon EMR prüft, ob der Cluster kontinuierlich inaktiv ist (AutoTerminationIsClusterIdle= 1). Wenn die Leerlaufzeit eines Clusters dem IdleTimeout-Wert in Ihrer Richtlinie zur automatischen Kündigung entspricht, beendet Amazon EMR den Cluster.

Dimensionen für Amazon-EMR-Metriken

Die Amazon-EMR-Daten können mithilfe der folgenden Dimensionen in der folgenden Tabelle gefiltert werden.

Dimension Beschreibung
JobFlowId Entspricht der Cluster-ID, der eindeutigen Kennung eines Clusters mit dem Format j-XXXXXXXXXXXXX. Sie können diesen Wert durch Klicken auf den Cluster in der Amazon-EMR-Konsole anzeigen.