Die Wahl des richtigen Speichers - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die Wahl des richtigen Speichers

Konfigurieren Sie die Instance-Typen und die Kapazität Ihres Clusters. Kern- und Taskknoten benötigen Verarbeitungs- und Rechenleistung, aber nur die Kernknoten speichern Daten. Wählen Sie den kostengünstigsten Speichertyp für Ihre Kernknoten.

Wenn Sie Amazon EMR für die Verarbeitung großer Datenmengen verwenden, haben Sie mehrere Möglichkeiten, Daten aus Amazon S3 zu verschieben. Die beste Option hängt von Ihrer Arbeitslast ab. In den folgenden Abschnitten finden Sie einige wichtige Punkte, die Sie bei der Entscheidung, welcher Speichertyp die richtige Wahl für Sie ist, berücksichtigen sollten.

Verteiltes Hadoop-Dateisystem

Hadoop Distributed File System (HDFS) ist ein verteiltes, skalierbares und portables Dateisystem für Hadoop. Ein Vorteil von HDFS ist, dass die Daten für die Hadoop-Cluster-Knoten zur Verwaltung der Cluster und die Hadoop-Cluster-Knoten für die Verwaltung der einzelnen Schritte bekannt sind.

Wann sollte HDFS in Amazon EMR verwendet werden

Wenn Sie iterative Lesevorgänge für denselben Datensatz oder Festplatten-E/A-intensive Workloads haben, können Sie HDFS zum Zwischenspeichern von Zwischenergebnissen und als Hot-Storage für die Datenverarbeitung verwenden. HDFS ist kurzlebig, was bedeutet, dass es zurückgewonnen wird, wenn die Instanzen beendet werden.

EMR-Dateisystem

Das EMR-Dateisystem (EMRFS) ist eine Implementierung von HDFS, die Amazon EMR-Cluster normalerweise zum Lesen und Schreiben regulärer Dateien aus Amazon EMR direkt in Amazon S3 verwenden.

Sie können EMRFS verwenden, wenn Sie den Datensatz in jedem Lauf einmal lesen. EMRFS entkoppelt Speicher und Rechenleistung, sodass Sie keine Kernknoten speziell zum Speichern von Daten bereitstellen müssen und Sie auch nicht für die Datenreplikation in HDFS bezahlen müssen. Dies führt zu niedrigeren Kosten und bietet die Verfügbarkeit der Daten für mehrere Cluster. Sie haben auch den Vorteil, dass Daten nach dem Herunterfahren des Clusters beibehalten werden.