Der Cluster endet mit SLAVE NO_ _ und den Kernknoten _BY_ LEFT FAILED MASTER - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Der Cluster endet mit SLAVE NO_ _ und den Kernknoten _BY_ LEFT FAILED MASTER

Dies passiert in der Regel, da der Beendigungsschutz deaktiviert ist, und alle Core-Knoten überschreiten die Datenträger-Speicherkapazität, die durch einen Schwellenwert für die maximale Auslastung in der yarn-site-Konfigurationsklassifizierung angegeben ist, die der yarn-site.xml-Datei entspricht. Dieser Wert liegt standardmäßig bei 90 %. Wenn die Festplattenauslastung für einen Kernknoten den Auslastungsschwellenwert überschreitet, meldet der YARN NodeManager Health Service den Knoten als. UNHEALTHY In diesem Zustand listet Amazon EMR Deny den Knoten auf und weist ihm keine YARN Container zu. Wenn der Knoten 45 Minuten lang fehlerhaft bleibt, EMR markiert Amazon die zugehörige EC2 Amazon-Instance zur Kündigung alsFAILED_BY_MASTER. Wenn alle EC2 Amazon-Instances, die mit Kernknoten verknüpft sind, für die Kündigung markiert sind, wird der Cluster mit dem Status beendet, NO_SLAVE_LEFT da keine Ressourcen zur Ausführung von Jobs vorhanden sind.

Das Überschreiten der Datenträgernutzung auf einem Core-Knoten könnte eine Kettenreaktion auslösen. Wenn ein einzelner Knoten den Schwellenwert für die Festplattenauslastung aus diesem Grund überschreitetHDFS, befinden sich wahrscheinlich auch andere Knoten in der Nähe des Schwellenwerts. Der erste Knoten überschreitet den Schwellenwert für die Festplattenauslastung, weshalb Amazon EMR Deny ihn auflistet. Dies erhöht die Belastung der verbleibenden Knoten durch die Festplattenauslastung, da sie damit beginnen, HDFS Daten, die sie auf dem Knoten auf der Sperrliste verloren haben, untereinander zu replizieren. Jeder Knoten wird anschließend auf die gleiche Weise in den Zustand UNHEALTHY versetzt und der Cluster wird schließlich beendet.

Bewährte Methoden und Empfehlungen

Konfigurieren von Cluster-Hardware mit ausreichend Speicher

Wenn Sie einen Cluster erstellen, stellen Sie sicher, dass genügend Kernknoten vorhanden sind und dass jeder über einen geeigneten Instance-Speicher und EBS Speichervolumes für verfügt. HDFS Weitere Informationen finden Sie unter Berechnung der erforderlichen HDFS Kapazität eines Clusters. Sie können auch Core-Instances manuell oder mithilfe der automatischen Skalierung zu vorhandenen Instance-Gruppen hinzuzufügen. Die neuen Instances haben dieselbe Speicherkonfiguration wie andere Instances in der Instance-Gruppe. Weitere Informationen finden Sie unter Clusterskalierung verwenden.

Aktivieren des Beendigungsschutzes

Beendigungsschutz aktivieren. Auf diese Weise können Sie, wenn ein Core-Node auf der Deny-Liste steht, eine Verbindung zu der zugehörigen EC2 Amazon-Instance herstellenSSH, die zur Fehlerbehebung und Wiederherstellung von Daten verwendet wird. Wenn Sie den Kündigungsschutz aktivieren, beachten Sie, dass Amazon die EC2 Amazon-Instance EMR nicht durch eine neue Instance ersetzt. Weitere Informationen finden Sie unter Verwenden des Beendigungsschutzes.

Erstellen Sie einen Alarm für die MRUnhealthyNodes CloudWatch Metrik

Diese Metrik meldet die Anzahl der Knoten mit dem Status UNHEALTHY. Es entspricht der YARN Metrikmapred.resourcemanager.NoOfUnhealthyNodes. Sie können eine Benachrichtigung für diesen Alarm einrichten, um über fehlerhafte Knoten informiert zu werden, bevor der 45-Minuten-Timeout erreicht ist. Weitere Informationen finden Sie unter Überwachung von EMR Amazon-Metriken mit CloudWatch.

Anpassen von Einstellungen mit yarn-site

Die folgenden Einstellungen können an Ihre Anwendungsanforderungen angepasst werden. Beispiel: Sie möchten den Schwellenwert für die Datenträgernutzung erhöhen, bei dem ein Knoten UNHEALTHY melden, indem Sie den Wert von yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage erhöhen.

Sie können diese Werte festlegen, wenn Sie einen Cluster mithilfe der yarn-site-Konfigurationsklassifizierung erstellen. Weitere Informationen finden Sie unter Konfiguration von Anwendungen im EMRAmazon-Versionshandbuch. Sie können auch mithilfe eines Texteditors eine Verbindung zu den EC2 Amazon-Instances herstellenSSH, die mit den Kernknoten verknüpft sind, und dann die Werte hinzufügen. /etc/hadoop/conf.empty/yarn-site.xml Nachdem Sie die Änderung vorgenommen haben, müssen Sie hadoop-yarn-nodemanager wie unten gezeigt neu starten.

Wichtig

Wenn Sie den NodeManager Dienst neu starten, werden aktive YARN Container beendet, es yarn.nodemanager.recovery.enabled sei denn, Sie haben bei der Erstellung des Clusters die true Verwendung der yarn-site Konfigurationsklassifizierung festgelegt. Darüber hinaus müssen Sie über die Eigenschaft yarn.nodemanager.recovery.dir das Verzeichnis angeben, in dem der Containerstatus gespeichert werden soll.

sudo /sbin/stop hadoop-yarn-nodemanager sudo /sbin/start hadoop-yarn-nodemanager

Weitere Informationen zu aktuellen yarn-site Eigenschaften und Standardwerten finden Sie unter YARNStandardeinstellungen in der Apache Hadoop-Dokumentation.

Eigenschaft Standardwert Beschreibung

yarn.nodemanager. disk-health-checker.interval-ms

120000

Die Häufigkeit (in Sekunden), mit der die Datenträger-Zustandsprüfung ausgeführt wird.

garn.nodemanager. disk-health-checker. min-healthy-disks

0,25

Der Mindestanteil der Anzahl der Festplatten, die fehlerfrei sein müssen, NodeManager damit neue Container gestartet werden können. Dies entspricht sowohl yarn.nodemanager.local-dirs (standardmäßig in Amazon) als auch yarn.nodemanager.log-dirs (standardmäßig, mit dem /mnt/yarn in Amazon ein Symlink verknüpft istEMR). /var/log/hadoop-yarn/containers mnt/var/log/hadoop-yarn/containers EMR

yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage

90.0

Der maximale Prozentsatz der zulässigen Speicherplatzauslastung, ab der ein Datenträger als fehlerhaft markiert wird. Die Werte können zwischen 0,0 und 100,0 liegen. Wenn der Wert größer oder gleich 100 ist, wird geprüft, ob eine volle Festplatte vorhanden ist. NodeManager Dies gilt für yarn-nodemanager.local-dirs und yarn.nodemanager.log-dirs.

yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb

0

Der mindestens erforderliche verfügbare Speicherplatz, damit ein Datenträger verwendet werden kann. Dies gilt für yarn-nodemanager.local-dirs und yarn.nodemanager.log-dirs.