Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Die Wahl des richtigen Speichers
Konfigurieren Sie die Instance-Typen und die Kapazität Ihres Clusters. Kern- und Taskknoten benötigen Verarbeitungs- und Rechenleistung, aber nur die Kernknoten speichern Daten. Wählen Sie den kostengünstigsten Speichertyp für Ihre Kernknoten.
Wenn Sie Amazon EMR für die Verarbeitung großer Datenmengen verwenden, haben Sie mehrere Möglichkeiten, Daten aus Amazon S3 zu verschieben. Die beste Option hängt von Ihrer Arbeitslast ab. In den folgenden Abschnitten finden Sie einige wichtige Punkte, die Sie bei der Entscheidung, welcher Speichertyp die richtige Wahl für Sie ist, berücksichtigen sollten.
Verteiltes Hadoop-Dateisystem
Hadoop Distributed File System (HDFS) ist ein verteiltes, skalierbares und portables Dateisystem für Hadoop. Ein Vorteil von HDFS ist, dass die Daten für die Hadoop-Cluster-Knoten zur Verwaltung der Cluster und die Hadoop-Cluster-Knoten für die Verwaltung der einzelnen Schritte bekannt sind.
Wann sollte HDFS in Amazon EMR verwendet werden
Wenn Sie iterative Lesevorgänge für denselben Datensatz oder Festplatten-E/A-intensive Workloads haben, können Sie HDFS zum Zwischenspeichern von Zwischenergebnissen und als Hot-Storage für die Datenverarbeitung verwenden. HDFS ist kurzlebig, was bedeutet, dass es zurückgewonnen wird, wenn die Instanzen beendet werden.
EMR-Dateisystem
Das EMR-Dateisystem (EMRFS) ist eine Implementierung von HDFS, die Amazon EMR-Cluster normalerweise zum Lesen und Schreiben regulärer Dateien aus Amazon EMR direkt in Amazon S3 verwenden.
Sie können EMRFS verwenden, wenn Sie den Datensatz in jedem Lauf einmal lesen. EMRFS entkoppelt Speicher und Rechenleistung, sodass Sie keine Kernknoten speziell zum Speichern von Daten bereitstellen müssen und Sie auch nicht für die Datenreplikation in HDFS bezahlen müssen. Dies führt zu niedrigeren Kosten und bietet die Verfügbarkeit der Daten für mehrere Cluster. Sie haben auch den Vorteil, dass Daten nach dem Herunterfahren des Clusters beibehalten werden.