HDFS 構成 - Amazon EMR

HDFS 構成

次の表に、Hadoop Distributed File System(HDFS)のデフォルトのパラメータとその設定を示します。hdfs-site 設定分類を使用して、これらの値を変更できます。詳細については、「アプリケーションの設定」を参照してください。

警告
  1. ノードが 4 つ未満のクラスターで dfs.replication を 1 に設定すると、単一ノードがダウンした場合に HDFS データが失われる可能性があります。クラスターに HDFS ストレージがある場合は、データ損失を避けるため、本番稼働ワークロード用に少なくとも 4 つのコアノードでクラスターを構成することをお勧めします。

  2. Amazon EMR では、クラスターはコアノードを dfs.replication 未満にスケールすることはできません。例えば、dfs.replication = 2 の場合、コアノードの最小数は 2 です。

  3. マネージドスケーリングや自動スケーリングを使用する場合や、クラスターのサイズを手動で変更する場合は、dfs.replication2 以上に設定することをお勧めします。

パラメータ 定義 デフォルト値
dfs.block.size HDFS ブロックのサイズ。HDFS に格納されているデータを操作するとき、分割サイズは原則として HDFS ブロックのサイズです。値を大きくするとタスクの粒度は小さくなりますが、クラスターへの負荷も低下します。NameNode 134217728(128 MB)
dfs.replication 耐久性のために保存する各ブロックのコピー数。Amazon EMR は、クラスターがプロビジョニングされるコアノードの数に基づいてこの値を設定します。必要に応じて値を調整してください。デフォルト値を上書きするには、hdfs-site 分類を使用します。

1 (コアノードが 4 個未満でプロビジョニングされているクラスターの場合)

2 (コアノードが 10 個未満でプロビジョニングされているクラスターの場合)

3 (それ以外のすべてのクラスターの場合)