Configurazione HDFS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione HDFS

La tabella seguente descrive i parametri predefiniti del file di sistema distribuito Hadoop (HDFS) e le relative impostazioni. Questi valori possono essere modificati utilizzando la classificazione di configurazione hdfs-site. Per ulteriori informazioni, consulta Configurazione delle applicazioni.

avvertimento
  1. L'impostazione di dfs.replication su 1 per i cluster con meno di quattro nodi può causare la perdita di dati HDFS in caso di disattivazione anche di un singolo nodo. Se il cluster dispone di spazio di archiviazione HDFS, per evitare la perdita di dati è preferibile configurarlo con almeno quattro nodi principali per i carichi di lavoro di produzione.

  2. Amazon EMR non consente ai cluster di dimensionare i nodi principali al di sotto di dfs.replication. Ad esempio, se dfs.replication = 2, il numero minimo di nodi principali è 2.

  3. Quando utilizzi il dimensionamento gestito, il dimensionamento automatico o scegli di dimensionare manualmente il cluster, ti consigliamo di impostare dfs.replication su 2 o su un valore superiore.

Parametro Definizione Valore predefinito
dfs.block.size La dimensione dei blocchi HDFS. Quando si opera su dati memorizzati in HDFS, la dimensione di split è generalmente la dimensione di un blocco HDFS. Un numero maggiore garantisce una minore granularità delle attività, ma anche una minore sollecitazione del cluster NameNode. 134217728 (128 MB)
dfs.replication Il numero di copie di ogni blocco da conservare per una maggiore durata. Amazon EMR imposta questo valore in base al numero di nodi principali con cui viene fornito il cluster. Modifica il valore in base alle tue esigenze. Per sovrascrivere il valore di default, è possibile usare la classificazione hdfs-site.

1 per cluster sottoposti a provisioning con meno di quattro nodi principali

2 per cluster sottoposti a provisioning con meno di dieci nodi principali

3 per tutti gli altri cluster