Auswahl und Bereitstellung eines Amazon EMR-Clusters - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Auswahl und Bereitstellung eines Amazon EMR-Clusters

Identifizieren und organisieren Sie die Knotentypen. Wenn Sie Ihren Amazon EMR-Cluster definieren, ist es wichtig, seine Hardware zu verstehen. Funktionsweise Wie setzt er sich zusammen? Die Antworten auf diese Fragen umfassen drei Teile:

  • Die Art der Knoten

  • Die Funktion, die jeder Knoten erfüllt

  • Die Typen von EC2-Instances, die für jeden Knoten am effizientesten sind

Anfänglich ist der primäre Knoten für die Verwaltung der allgemeinen Ressourcen verantwortlich. Er führt die Hauptkomponenten der verteilten Anwendung aus. Es führt beispielsweise den Hadoop Distributed File System (HDFS) NameNode -Dienst aus, verfolgt die im Cluster auszuführenden Jobs und überwacht den Zustand des Systems.

Darüber hinaus verfügt Amazon EMR über Core Nodes und Task Nodes. Core-Knoten werden vom Primärknoten verwaltet. Kernknoten führen Aufgabenknoten aus und sind für das Speichern von Daten im HDFS auf dem Cluster zuständig. Taskknoten sind für die Verwaltung der Aufgaben zuständig, die dem Cluster zugewiesen werden. Ein Task-Knoten speichert keine Daten. (Aufgabenknoten sind nicht obligatorisch.)

Bei der Konfiguration und Bereitstellung Ihres Amazon EMR-Clusters ist es wichtig, die richtige Wahl Ihrer EC2-Instances zu treffen, die Ihre Clusterknoten repräsentieren. Es gibt mehrere Möglichkeiten, EC2-Instances zu einem Cluster hinzuzufügen, je nachdem, ob Sie die Instance-Gruppen-Konfiguration oder die Instance-Flotten-Konfiguration für den Cluster verwenden. Weitere Informationen zu den unterstützten Instance-Typen finden Sie in der AWS Dokumentation.

Die folgenden Richtlinien gelten für die meisten Amazon EMR-Cluster. Sie können sich auch die Best Practices für die Cluster-Konfiguration ansehen.

Richtlinien für die Auswahl von Instanzen

Im Allgemeinen hängt es von dem Job ab, den Sie ausführen, welche Instances für Ihre Amazon EMR-Implementierung bevorzugt werden. Stellen Sie sich die folgenden Fragen:

  • Ist Ihr Job speicherintensiv?

  • Ist Ihr Job CPU-intensiv?

  • Benötigen Sie große Mengen an Speicherplatz?

  • Benötigt Ihr Job GPU-Kapazität?

Diese Fragen helfen Ihnen zu verstehen, welche Art von Instances Sie benötigen und welche Eigenschaften Sie tatsächlich benötigen. Ermitteln Sie, wie viele Jobs Sie gleichzeitig verarbeiten möchten und wie schnell die Jobs verarbeitet werden müssen. Dies ist wichtig, da die Nutzung von Amazon EMR in stündlichen Schritten abgerechnet wird. Wenn Sie einen Cluster einschalten, wird Ihnen die gesamte Stunde in Rechnung gestellt.

Sie können die Kosten für jede Instanz überprüfen, die in verschiedenen AWS Regionen ausgeführt wird. Um Preise zwischen Regionen zu vergleichen, können Sie den AWS Preisrechner verwenden und die Werte je nach Ihrem Standort ändern.

Auswahl von EC2-Instances

Wenn Sie die vorherigen Fragen beantwortet haben, ist es an der Zeit, die Instances auf der Grundlage dieser Anforderungen auszuwählen. Nachdem Sie sich mit Ihren Anforderungen an die Verarbeitungsaufgabe vertraut gemacht haben, bestimmen Sie den Instance-Typ anhand der von Ihnen benötigten Merkmale:

  • Wenn Sie Allzweck-Instances benötigen, wählen Sie M6g -, T4g- oder M5-Instances.

  • Wenn Sie rechenoptimierte Instances benötigen, wählen Sie C6g- oder C5-Instances.

  • Wenn Sie speicheroptimierte Instances benötigen, wählen Sie R6g-, X1-, R5 - oder Z1d-Instances.

  • Wenn Sie den Speicher optimieren müssen, wählen Sie I3-Instances, die eine hohe I/O-Leistung bieten.

  • Wenn Sie beschleunigtes Computing wie GPU benötigen, wählen Sie P3 -, G4 - oder Inf1-Instances. Diese Instance-Typen bieten unter anderem eine hohe Leistung für maschinelles Lernen und Fluiddynamik.

Eine weitere Möglichkeit, die Instanztypen und ihre Funktionen zu verstehen, besteht darin, den Standardspeicher für jeden Instanztyp zu analysieren. Diese Metrik hilft Ihnen dabei, die Leistung Ihrer MapReduce Jobs zu optimieren und zu verbessern. Weitere Informationen finden Sie unter Hadoop-Daemon-Konfigurationseinstellungen.

Wenn Sie wissen, welche Art von Instanzen Sie benötigen, können Sie Ihre Clusterkapazität planen.