Cluster-Scale-Down-Optionen für Amazon EMR-Cluster

Anmerkung

Optionen für das Herunterskalierungs-Verhalten werden seit der Amazon-EMR-Version 5.10.0 nicht mehr unterstützt. Aufgrund der Einführung der Abrechnung pro Sekunde in Amazon EC2 wird das Standard-Scale-Down-Verhalten für Amazon EMR-Cluster jetzt bei Abschluss der Aufgabe beendet.

In den Amazon EMR-Versionen 5.1.0 bis 5.9.1 gibt es zwei Optionen für das Scale-Down-Verhalten: Beenden innerhalb der Instanz-Stunden-Grenze für EC2 Amazon-Fakturierung oder Beenden bei Abschluss der Aufgabe. Ab Amazon EMR Version 5.10.0 ist die Einstellung für die Kündigung innerhalb der Instance-Stundengrenze veraltet, da Amazon die Abrechnung pro Sekunde eingeführt hat. EC2 Wir raten davon ab, die Beendigung zur Instance-Stundengrenze zu verwenden, wenn diese Option angeboten wird.

Warnung

Wenn Sie die Option „ AWS CLI amodify-instance-groups“ verwendenEC2InstanceIdsToTerminate, werden diese Instances sofort beendet, ohne Berücksichtigung dieser Einstellungen und unabhängig vom Status der Anwendungen, die auf ihnen ausgeführt werden. Wenn eine Instance auf diese Weise beendet wird, besteht das Risiko von Datenverlusten und unvorhersehbarem Clusterverhalten.

Wenn „Bei Abschluss der Aufgabe beenden“ angegeben ist, lehnt Amazon EMR Aufgaben ab und entfernt Aufgaben von Knoten, bevor die Amazon-Instances beendet werden. EC2 Wenn eines der beiden Verhaltensweisen angegeben ist, beendet Amazon EMR keine EC2 Amazon-Instances in Core-Instance-Gruppen, wenn dies zu einer Beschädigung von HDFS führen könnte.

Beendigung bei Aufgaben-Abschluss

Mit Amazon EMR können Sie eine Herunterskalierung für den Cluster durchführen, ohne dass es zu Auswirkungen auf den Workload kommt. Amazon EMR versucht, YARN, HDFS und andere Daemons auf Kern- und Taskknoten während einer Größenänderung ordnungsgemäß außer Betrieb zu nehmen, ohne Daten zu verlieren oder Jobs zu unterbrechen. Amazon EMR verkleinert Instance-Gruppen nur, wenn die zu den Gruppen zugewiesenen Aufgaben abgeschlossen sind und sie unausgelastet sind. Bei YARN NodeManager Graceful Decommission können Sie die Zeit, die ein Knoten auf die Außerbetriebnahme wartet, manuell anpassen.

Anmerkung

Bei einer ordnungsgemäßen Außerbetriebnahme kann es zu Datenverlust kommen. Stellen Sie sicher, dass Sie Ihre Daten sichern.

Wichtig

Es ist möglich, dass HDFS-Daten beim ordnungsgemäßen Austausch einer fehlerhaften Core-Instance dauerhaft verloren gehen. Wir empfehlen, dass Sie Ihre Daten immer sichern.

Die Dauer wird mit einer Eigenschaft in der YARN-site-Konfigurationsklassifizierung eingerichtet. Wenn Sie Amazon-EMR-Version 5.12.0 und höher verwenden, geben Sie die Eigenschaft YARN.resourcemanager.nodemanager-graceful-decommission-timeout-secs an. Bei Verwendung von früheren Amazon-EMR-Versionen geben Sie die Eigenschaft YARN.resourcemanager.decommissioning.timeout an.

Wenn nach diesem Stilllegungszeitraum noch Container oder YARN-Anwendungen ausgeführt werden, wird die Stilllegung des Knotens erzwungen. YARN plant betroffene Container in anderen Knoten neu. Die Standardwert ist 3600 Sekunden (eine Stunde). Sie können den Timeout auf einen extrem hohen Wert festlegen, um die ordnungsgemäße Verkleinerung zu verzögern. Weitere Informationen finden Sie unter Ordnungsgemäßes Stilllegen von YARN Knoten in der Apache-Hadoop-Dokumentation.

Aufgabenknoten-Gruppen

Amazon EMR wählt in intelligenter Weise Instances aus, die keine Aufgaben im Zusammenhang mit einem Schritt oder einer Anwendung ausführen und entfernt diese Instance zuerst aus einem Cluster. Wenn alle Instances im Cluster genutzt werden, wartet Amazon EMR auf den Abschluss von Tasks in einer Instance, bevor diese aus dem Cluster entfernt wird. Die standardmäßige Leerlaufzeit beträgt eine Stunde. Dieser Wert kann mit der Einstellung YARN.resourcemanager.decommissioning.timeout geändert werden. Amazon EMR nutzt die neue Einstellung dynamisch. Sie können diesen Wert auf eine beliebig große Zahl festlegen, um sicherzustellen, dass Amazon EMR keine Aufgaben beendet und gleichzeitig die Clustergröße reduziert.

Core-Knoten-Gruppen

Auf Kernknoten müssen sowohl YARN NodeManager - als auch DataNode HDFS-Daemons außer Betrieb genommen werden, damit die Instanzgruppe reduziert werden kann. Bei YARN stellt das ordnungsgemäße Verkleinern sicher, dass ein für die Außerbetriebnahme vorgesehener Knoten nur dann in den Status DECOMMISSIONED wechselt, wenn es keine ausstehenden oder unvollständigen Container oder Anwendungen gibt. Die Außerbetriebnahme wird direkt beendet, falls es zu Beginn der Außerbetriebnahme keine laufenden Container auf dem Knoten gibt.

Bei HDFS stellt die ordnungsgemäße Verkleinerung sicher, dass die Zielkapazität von HDFS für alle vorhandenen Blöcke ausreichend ist. Wenn die Zielkapazität nicht groß genug ist, wird nur ein Teil der Core-Instances außer Betrieb gestellt. So können die verbleibenden Knoten die aktuell in HDFS vorhandenen Daten verarbeiten. Stellen Sie für eine weitere Außerbetriebnahme zusätzliche HDFS-Kapazität sicher. Sie sollten auch versuchen, den Schreibaufwand zu minimieren, I/O bevor Sie versuchen, Instanzgruppen zu reduzieren. Übermäßiger Schreibvorgang I/O kann den Abschluss des Größenänderungsvorgangs verzögern.

Ein weiterer Faktor ist der Standard-Replikationsfaktor (dfs.replication) in /etc/hadoop/conf/hdfs-site. Amazon EMR konfiguriert den Wert basierend auf der Anzahl der Instances im Cluster: 1 bei 1–3 Instances, 2 für Cluster mit 4–9 Instances und 3 für Cluster mit mehr als zehn Instances.

Warnung

Das Festlegen von dfs.replication auf 1 auf Clustern mit weniger als vier Knoten kann zu einem HDFS-Datenverlust führen, wenn ein einzelner Knoten ausfällt. Wir empfehlen, für Produktionsworkloads einen Cluster mit mindestens vier Core-Knoten zu verwenden.
Amazon EMR erlaubt Clustern nicht, Core-Knoten unter dfs.replication zu skalieren. Bei dfs.replication = 2 z. B. beträgt die Mindestanzahl von Core-Knoten 2.
Wenn Sie verwaltete Skalierung oder Auto-Scaling verwenden oder die Größe Ihres Clusters manuell ändern möchten, empfehlen wir Ihnen, dfs.replication auf 2 oder höher einzustellen.

Durch die schrittweise Reduzierung können Sie die Anzahl der Core-Knoten nicht unter den HDFS-Replikationsfaktor reduzieren. Auf diese Weise kann HDFS Dateien aufgrund unzureichender Replikate schließen. Um dieses Limit zu umgehen, verringern Sie den Replikationsfaktor und starten Sie den NameNode Daemon neu.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bereitstellungen des Timeouts für den Start

Das Herunterskalierungs-Verhalten für Amazon-EMR-Cluster konfigurieren