Verteiltes Hadoop-Dateisystem Wann sollte HDFS in Amazon EMR verwendet werden

Die Wahl des richtigen Speichers

Konfigurieren Sie die Instance-Typen und die Kapazität Ihres Clusters. Kern- und Taskknoten benötigen Verarbeitungs- und Rechenleistung, aber nur die Kernknoten speichern Daten. Wählen Sie den kostengünstigsten Speichertyp für Ihre Kernknoten.

Wenn Sie Amazon EMR für die Verarbeitung großer Datenmengen verwenden, haben Sie mehrere Möglichkeiten, Daten aus Amazon S3 zu verschieben. Die beste Option hängt von Ihrer Arbeitslast ab. In den folgenden Abschnitten finden Sie einige wichtige Punkte, die Sie bei der Entscheidung, welcher Speichertyp die richtige Wahl für Sie ist, berücksichtigen sollten.

Verteiltes Hadoop-Dateisystem

Hadoop Distributed File System (HDFS) ist ein verteiltes, skalierbares und portables Dateisystem für Hadoop. Ein Vorteil von HDFS ist, dass die Daten für die Hadoop-Cluster-Knoten zur Verwaltung der Cluster und die Hadoop-Cluster-Knoten für die Verwaltung der einzelnen Schritte bekannt sind.

Wann sollte HDFS in Amazon EMR verwendet werden

Wenn Sie iterative Lesevorgänge für denselben Datensatz oder Festplatten-E/A-intensive Workloads haben, können Sie HDFS zum Zwischenspeichern von Zwischenergebnissen und als Hot-Storage für die Datenverarbeitung verwenden. HDFS ist kurzlebig, was bedeutet, dass es zurückgewonnen wird, wenn die Instanzen beendet werden.

EMR-Dateisystem

Das EMR-Dateisystem (EMRFS) ist eine Implementierung von HDFS, die Amazon EMR-Cluster normalerweise zum Lesen und Schreiben regulärer Dateien aus Amazon EMR direkt in Amazon S3 verwenden.

Sie können EMRFS verwenden, wenn Sie den Datensatz in jedem Lauf einmal lesen. EMRFS entkoppelt Speicher und Rechenleistung, sodass Sie keine Kernknoten speziell zum Speichern von Daten bereitstellen müssen und Sie auch nicht für die Datenreplikation in HDFS bezahlen müssen. Dies führt zu niedrigeren Kosten und bietet die Verfügbarkeit der Daten für mehrere Cluster. Sie haben auch den Vorteil, dass Daten nach dem Herunterfahren des Clusters beibehalten werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kapazität schätzen

Auto Scaling