本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
HDFS配置
下表說明預設的 Hadoop 分散式檔案系統 (HDFS) 參數及其設定。您可以使用 hdfs-site
組態分類變更這些值。如需詳細資訊,請參閱設定應用程式。
警告
-
如果單一節點故障,在少於四個節點的叢集上設
dfs.replication
定為 1 可能會導致HDFS資料遺失。如果您的叢集具有HDFS儲存裝置,建議您為生產工作負載配置至少四個核心節點的叢集,以避免資料遺失。 -
Amazon EMR 不允許叢集擴展下方的核心節點
dfs.replication
。例如,如果dfs.replication = 2
,核心節點的最小數量為 2。 -
當您使用受管擴展即自動擴展,或選擇手動調整叢集大小時,建議您將
dfs.replication
設定為2
或更高。
參數 | 定義 | 預設值 |
---|---|---|
dfs.block.size |
HDFS塊的大小。對存儲在中的數據進行操作時HDFS,分割大小通常是HDFS塊的大小。數字越大,精細度越少,但對叢集 NameNode 的壓力也越少。 |
134217728 (128 MB) |
dfs.replication |
每個區塊供長期存放的複本數。Amazon 會根據叢集佈建的核心節點數量來EMR設定此值。調整此值以符合您的需求。若要覆寫預設值,請使用 hdfs-site 分類。 |
|