Wahl des automatischen Skalierungsansatzes - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wahl des automatischen Skalierungsansatzes

Elastizität ist einer der Hauptvorteile der Verwendung von Amazon EMR. Es gibt zwei Hauptoptionen für die automatische Skalierung Ihrer Ressourcen:

  • Verwaltete Skalierung

  • Eine benutzerdefinierte Skalierungsrichtlinie

Mit verwalteter Skalierung oder mit einer benutzerdefinierten automatischen Skalierungsrichtlinie können Sie Ihre Knoten nach innen und außen skalieren, sodass Sie nur die Ressourcen verwenden, die Sie benötigen. Die horizontale Skalierung wird verwendet, um mehr Ressourcen hinzuzufügen, wenn Sie mehr Kapazität benötigen. Die Skalierung führt zu einer Kosteneffizienz, da Ressourcen entfernt werden, die nicht genutzt werden. Innerhalb des Amazon EMR-Service sind CloudWatch Amazon-Metriken aktiviert, um Ihre Ressourcen zu überwachen, sodass Sie Ihren Cluster skalieren können. CloudWatch nimmt alle 5 Minuten Datenpunkte auf.

Für jeden der automatischen Skalierungsansätze gibt es unterschiedliche Überlegungen.

Amazon EMR Managed Scaling

Verwenden Sie EMR-verwaltete Skalierung, wenn Ihr Workload die folgenden Kriterien erfüllt:

  • Ein verwaltetes Erlebnis ist erforderlich.

  • Amazon EMR 5.330 oder höher wird verwendet.

  • Sie benötigen eine Evaluierungshäufigkeit von 1 Minute.

  • Die Lösung verwendet Instance-Flotten, sodass zwischen einer und fünf Instance-Optionen zur Verfügung stehen.

  • Die Anwendungen basieren auf Apache Spark, Apache Hive oder Apache Hadoop YARN.

Benutzerdefinierte automatische Skalierung

Verwenden Sie eine benutzerdefinierte automatische Skalierungsrichtlinie, wenn Ihr Workload die folgenden Kriterien erfüllt:

  • Sie müssen die Metrik für die Skalierung kontrollieren.

  • Amazon EMR 4.0+ wird verwendet.

  • Eine hohe Evaluierungshäufigkeit ist nicht erforderlich.

  • Es ist nicht erforderlich, die Abklingzeiten zwischen aufeinanderfolgenden Größenänderungen zu kontrollieren.

  • Es ist wichtig zu kontrollieren, wie viele Instanzen bei der Skalierung hinzugefügt oder entfernt werden sollen.

  • Die Lösung benötigt benutzerdefinierte Skalierungsaktionen. Beispielsweise möchten Sie möglicherweise mehr als einen Knoten in einem Zeitraum von 5 Minuten skalieren. Oder Sie möchten vielleicht die Abklingzeit anpassen.

  • Es gibt keine Beschränkung für die Verwendung verschiedener Instant-Typen in einer Instanzgruppe.

Tipps zum Hinzufügen von automatischer Skalierung zu Ihrem Cluster

  • Seien Sie sich der Datenmenge bewusst, die Sie verarbeiten werden. Forecast anhand des Falls mit der größten Datenmenge.

  • Passen Sie die Größe Ihres Clusters an.

  • Wählen Sie einen Speichertyp, der Ihren Anforderungen entspricht.

  • Machen Sie sich mit den Metriken für einen Amazon EMR-Cluster vertraut.

  • Erfahren Sie, wie Sie die richtige Metrik für die Skalierung Ihres Clusters ermitteln.

  • Entscheiden Sie, ob Sie Spot-Instances, einheitliche Instanzgruppen oder Instance-Flotten verwenden möchten.

  • Entscheiden Sie anhand der Informationen und Einschränkungen, welche Art von Skalierungsansatz Sie bevorzugen: die von Amazon EMR verwaltete Skalierung oder eine benutzerdefinierte automatische Skalierungsrichtlinie.

  • Konfigurieren Sie die verwaltete Skalierung oder die benutzerdefinierte Richtlinie.

  • Wenn Sie eine benutzerdefinierte automatische Skalierungsrichtlinie ausgewählt haben, überwachen Sie die Amazon EMR-Metriken, um die Schwellenwerte der Richtlinie zu optimieren.