Anforderungen für Amazon EMR-Cluster - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anforderungen für Amazon EMR-Cluster

Amazon EMR-Cluster, die auf Amazon ausgeführt werden EC2

Alle Amazon EMR-Cluster, die auf Amazon ausgeführt werden und EC2 die Sie für einen EMR Studio Workspace erstellen, müssen die folgenden Anforderungen erfüllen. Cluster, die Sie mit der EMR-Studio-Oberfläche erstellen, erfüllen diese Anforderungen automatisch.

  • Der Cluster muss Amazon-EMR-Versionen 5.32.0 (Amazon EMR 5.x-Serie) oder 6.2.0 (Amazon EMR 6.x-Serie) oder höher verwenden. Sie können mit der Amazon EMR-Konsole oder dem SDK einen Cluster erstellen und ihn dann an einen EMR Studio Workspace anhängen. AWS Command Line Interface Studio-Benutzer können auch Cluster bereitstellen und anhängen, wenn sie einen Amazon-EMR-Workspace erstellen oder darin arbeiten. Weitere Informationen finden Sie unter Einen Computer an einen EMR Studio Workspace anhängen.

  • Dieser Cluster muss sich innerhalb einer Amazon Virtual Private Cloud befinden. Die EC2 -Classic-Plattform wird nicht unterstützt.

  • Auf dem Cluster müssen Spark, Livy und Jupyter Enterprise Gateway installiert sein. Wenn Sie den Cluster für SQL Explorer verwenden möchten, sollten Sie sowohl Presto als auch Spark installieren.

  • Um SQL Explorer verwenden zu können, muss der Cluster Amazon-EMR-Version 5.34.0 oder höher oder Version 6.4.0 oder höher verwenden und Presto installiert sein. Wenn Sie den AWS Glue-Datenkatalog als Hive-Metastore für Presto angeben möchten, müssen Sie ihn auf dem Cluster konfigurieren. Weitere Informationen finden Sie unter Verwendung von Presto mit dem AWS Glue Data Catalog.

  • Der Cluster muss sich in einem privaten Subnetz mit Network Address Translation (NAT) befinden, um öffentlich gehostete Git-Repositorys mit EMR Studio verwenden zu können.

Wir empfehlen die folgenden Clusterkonfigurationen, wenn Sie mit EMR Studio arbeiten.

  • Stellen Sie den Bereitstellungsmodus für Spark-Sitzungen auf den Clustermodus ein. Im Clustermodus werden die Anwendungsmasterprozesse auf den Core-Knoten und nicht auf dem Primärknoten eines Clusters platziert. Dadurch wird der Primärknoten von potenziellem Speicherdruck entlastet. Weitere Informationen finden Sie unter Cluster Mode Overview in der Apache Spark-Dokumentation.

  • Ändern Sie das Livy-Timeout wie in der folgenden Beispielkonfiguration von der Standardeinstellung von einer Stunde auf sechs Stunden.

    { "classification":"livy-conf", "Properties":{ "livy.server.session.timeout":"6h", "livy.spark.deploy-mode":"cluster" } }
  • Erstellen Sie verschiedene Instance-Flotten mit bis zu 30 Instances und wählen Sie mehrere Instance-Typen in Ihrer Spot Instance-Flotte aus. Sie könnten beispielsweise die folgenden arbeitsspeicheroptimierten Instance-Typen für Spark-Workloads angeben: r5.2x, r5.4x, r5.8x, r5.12x, r5.16x, r4.2x, r4.4x, r4.8x, r4.12, usw. Weitere Informationen finden Sie unter Planung und Konfiguration von Instance-Flotten für Ihren Amazon EMR-Cluster.

  • Verwenden Sie die kapazitätsoptimierte Zuweisungsstrategie für Spot-Instances, um Amazon EMR dabei zu unterstützen, auf der Grundlage von Echtzeit-Kapazitätsinformationen von Amazon eine effektive Instance-Auswahl zu treffen. EC2 Weitere Informationen finden Sie unter Zuweisungsstrategie für Flotten.

  • Aktivieren Sie die verwaltete Skalierung in Ihrem Cluster. Legen Sie den Parameter für die maximale Anzahl an Core-Knoten auf die minimale persistente Kapazität fest, die Sie verwenden möchten, und konfigurieren Sie die Skalierung für eine gut diversifizierte Task-Flotte, die auf Spot Instances ausgeführt wird, um Kosten zu sparen. Weitere Informationen finden Sie unter Verwenden der verwalteten Skalierung in Amazon EMR.

Wir bitten Sie außerdem dringend, Amazon EMR Block Public Access aktiviert zu lassen und den eingehenden SSH-Verkehr auf vertrauenswürdige Quellen zu beschränken. Durch den eingehenden Zugriff auf einen Cluster können Benutzer Notebooks auf dem Cluster ausführen. Weitere Informationen erhalten Sie unter Verwenden von Amazon EMR Block Public Access und Steuern Sie den Netzwerkverkehr mit Sicherheitsgruppen für Ihren Amazon EMR-Cluster.

Cluster von Amazon EMR in EKS

Zusätzlich zu EMR-Clustern, die auf Amazon ausgeführt werden EC2, können Sie Amazon EMR on EKS-Cluster für EMR Studio mithilfe von einrichten und verwalten. AWS CLI Richten Sie Amazon EMR auf EKS-Clustern gemäß den folgenden Richtlinien ein:

  • Erstellen Sie einen verwalteten HTTPS-Endpunkt für den Cluster von Amazon EMR in EKS. Benutzer hängen einen Workspace an einen verwalteten Endpunkt an. Der Amazon Elastic Kubernetes Service (EKS)-Cluster, den Sie zur Registrierung eines virtuellen Clusters verwenden, muss über ein privates Subnetz verfügen, um verwaltete Endgeräte zu unterstützen.

  • Verwenden Sie einen Amazon-EKS-Cluster mit mindestens einem privaten Subnetz und Network Address Translation (NAT), wenn Sie öffentlich gehostete Git-Repositorys verwenden möchten.

  • Vermeiden Sie die Verwendung von Amazon EKS-optimiertem Arm Amazon Linux AMIs, das für Amazon EMR auf von EKS verwalteten Endpunkten nicht unterstützt wird.

  • Vermeiden Sie die AWS Fargate ausschließliche Verwendung von Amazon EKS-Clustern, die nicht unterstützt werden.