HDFSKonfiguration - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

HDFSKonfiguration

In der folgenden Tabelle werden die Standardparameter des Hadoop Distributed File System (HDFS) und ihre Einstellungen beschrieben. Sie können diese Werte mithilfe der hdfs-site-Konfigurationsklassifizierung ändern. Weitere Informationen finden Sie unter Anwendungen konfigurieren.

Warnung
  1. Die Einstellung 1 dfs.replication für Cluster mit weniger als vier Knoten kann zu HDFS Datenverlust führen, wenn ein einzelner Knoten ausfällt. Wenn Ihr Cluster über HDFS Speicher verfügt, empfehlen wir, den Cluster mit mindestens vier Kernknoten für Produktionsworkloads zu konfigurieren, um Datenverlust zu vermeiden.

  2. Amazon EMR erlaubt Clustern nicht, Kernknoten nach unten zu skalierendfs.replication. Bei dfs.replication = 2 z. B. beträgt die Mindestanzahl von Core-Knoten 2.

  3. Wenn Sie Verwaltete Skalierung oder Auto-Scaling verwenden oder die Größe Ihres Clusters manuell ändern möchten, empfehlen wir Ihnen, die Größe dfs.replication auf 2 oder höher einzustellen.

Parameter Definition Standardwert
dfs.block.size Die Größe der HDFS Blöcke. Wenn mit Daten gearbeitet wird, die in gespeichert sindHDFS, entspricht die Teilungsgröße im Allgemeinen der Größe eines HDFS Blocks. Größere Größen bieten weniger Aufgabengranularität, belasten den Cluster NameNode jedoch auch weniger. 134217728 (128 MB)
dfs.replication Die Anzahl der Kopien der einzelnen Blöcke, die dauerhaft gespeichert werden sollen. Amazon EMR legt diesen Wert auf der Grundlage der Anzahl der Kernknoten fest, mit denen der Cluster bereitgestellt wird. Passen Sie den Wert entsprechend Ihren Anforderungen an. Zum Überschreiben des Standardwerts verwenden Sie die hdfs-site-Klassifizierung.

1 für Cluster, die mit weniger als vier Core-Knoten bereitgestellt werden

2 für Cluster, die mit weniger als zehn Core-Knoten bereitgestellt werden

3 für alle anderen Cluster