Überlegungen und bewährte Methoden beim Erstellen eines EMR Amazon-Clusters mit mehreren Primärknoten - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen und bewährte Methoden beim Erstellen eines EMR Amazon-Clusters mit mehreren Primärknoten

Beachten Sie Folgendes, wenn Sie einen EMR Amazon-Cluster mit mehreren Primärknoten erstellen:

Wichtig

Um EMR Hochverfügbarkeitscluster mit mehreren Primärknoten zu starten, empfehlen wir dringend, die neueste EMR Amazon-Version zu verwenden. Dadurch wird sichergestellt, dass Sie ein Höchstmaß an Resilienz und Stabilität für Ihre Hochverfügbarkeits-Cluster erhalten.

  • Hochverfügbarkeit für Instance-Flotten wird mit den EMR Amazon-Versionen 5.36.1, 5.36.2, 6.8.1, 6.9.1, 6.10.1, 6.11.1, 6.12.0 und höher unterstützt. Für Instance-Gruppen wird Hochverfügbarkeit mit EMR Amazon-Versionen 5.23.0 und höher unterstützt. Weitere Informationen finden Sie unter Über Amazon EMR Releases.

  • Auf Clustern mit hoher Verfügbarkeit unterstützt Amazon EMR nur den Start von Primärknoten mit On-Demand-Instances. Dadurch wird die höchste Verfügbarkeit für Ihren Cluster gewährleistet.

  • Sie können immer noch mehrere Instance-Typen für die primäre Flotte angeben, aber alle Primärknoten von Hochverfügbarkeits-Clustern werden mit demselben Instance-Typ gestartet, einschließlich Ersatz-Instances für fehlerhafte Primärknoten.

  • Um den Betrieb fortzusetzen, müssen bei einem Hochverfügbarkeits-Cluster mit mehreren Primärknoten zwei von drei Primärknoten fehlerfrei sein. Wenn also zwei Primärknoten gleichzeitig ausfallen, fällt Ihr EMR Cluster aus.

  • Alle EMR Cluster, einschließlich Hochverfügbarkeitscluster, werden in einer einzigen Availability Zone gestartet. Daher können sie Ausfälle in der Availability Zone nicht tolerieren. Beim Ausfall einer Availability Zone verlieren Sie den Zugriff auf den Cluster.

  • Wenn Sie beim Starten eines Clusters innerhalb einer Instance-Flotte eine benutzerdefinierte Servicerolle oder -richtlinie verwenden, können Sie die ec2:DescribeInstanceTypeOfferings Berechtigung hinzufügen, damit Amazon nicht unterstützte Availability Zones (AZ) herausfiltern EMR kann. Wenn Amazon diejenigen EMR herausfiltertAZs, die keine Instance-Typen von Primärknoten unterstützen, EMR verhindert Amazon, dass Cluster-Starts aufgrund nicht unterstützter primärer Instance-Typen fehlschlagen. Weitere Informationen finden Sie unter Instance-Typ wird nicht unterstützt.

  • Amazon garantiert EMR keine Hochverfügbarkeit für andere Open-Source-Anwendungen als die, die in Unterstützte Anwendungen in einem EMR Amazon-Cluster mit mehreren Primärknoten spezifiziert sind.

  • In den EMR Amazon-Versionen 5.23.0 bis 5.36.2 werden nur zwei der drei primären Knoten für einen Instance-Gruppen-Cluster ausgeführt HDFS NameNode.

  • In EMR Amazon-Versionen 6.x und höher werden alle drei primären Knoten für eine Instance-Gruppe ausgeführt HDFS NameNode.

Überlegungen für das Konfigurieren von Subnetzen:

  • Ein EMR Amazon-Cluster mit mehreren Primärknoten kann sich nur in einer Availability Zone oder einem Subnetz befinden. Amazon EMR kann einen ausgefallenen Primärknoten nicht ersetzen, wenn das Subnetz vollständig ausgelastet oder im Falle eines Failovers überbelegt ist. Um dieses Szenario zu vermeiden, wird empfohlen, einem EMR Amazon-Cluster ein ganzes Subnetz zuzuweisen. Darüber hinaus sollten Sie sicherstellen, dass im Subnetz eine ausreichende Zahl von privaten IP-Adressen verfügbar ist.

Überlegungen für das Konfigurieren von Core-Knoten:

  • Um sicherzustellen, dass die Core-Knoten ebenfalls hoch verfügbar sind, sollten Sie mindestens vier Core-Knoten starten. Wenn Sie sich dafür entscheiden, einen kleineren Cluster mit drei oder weniger Kernknoten zu starten, sollten Sie mindestens vier auswählen, dfs.replication parameter um eine ausreichende 2 HDFS DFS Replikation zu gewährleisten. Weitere Informationen finden Sie unter HDFSKonfiguration.

Warnung
  1. Die Einstellung dfs.replication 1 in Clustern mit weniger als vier Knoten kann zu HDFS Datenverlust führen, wenn ein einzelner Knoten ausfällt. Wir empfehlen, für Produktionsworkloads einen Cluster mit mindestens vier Core-Knoten zu verwenden.

  2. Amazon EMR erlaubt Clustern nicht, Kernknoten nach unten zu skalierendfs.replication. Bei dfs.replication = 2 z. B. beträgt die Mindestanzahl von Core-Knoten 2.

  3. Wenn Sie verwaltete Skalierung oder Auto-Scaling verwenden oder die Größe Ihres Clusters manuell ändern möchten, empfehlen wir Ihnen, dfs.replication auf 2 oder höher einzustellen.

Überlegungen zum Einrichten von Alarmen für Metriken:

  • Amazon stellt EMR keine anwendungsspezifischen Metriken zu HDFS oder bereit. YARN Sie sollten Alarme einrichten, um die Instance-Zahl der Primärknoten zu überwachen. Konfigurieren Sie die Alarme anhand der folgenden CloudWatch Amazon-Metriken: MultiMasterInstanceGroupNodesRunningMultiMasterInstanceGroupNodesRunningPercentage,, oderMultiMasterInstanceGroupNodesRequested. CloudWatch benachrichtigt Sie, falls der Primärknoten ausfällt oder ausgetauscht wird.

    • Wenn MultiMasterInstanceGroupNodesRunningPercentage kleiner als 1,0 und größer als 0,5 ist, ist im Cluster möglicherweise ein Primärknoten ausgefallen. In dieser Situation EMR versucht Amazon, einen Primärknoten zu ersetzen.

    • Wenn MultiMasterInstanceGroupNodesRunningPercentage kleiner als 0,5 ist, sind im Cluster möglicherweise zwei Primärknoten ausgefallen. In diesem Fall ist das Quorum verloren und der Cluster kann nicht wiederhergestellt werden. Sie müssen Daten manuell aus diesem Cluster migrieren.

    Weitere Informationen finden Sie unter Einrichten von Alarmen für Metriken.