HDFSconfiguration - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

HDFSconfiguration

Le tableau suivant décrit les paramètres par défaut du système de fichiers distribué Hadoop (HDFS) et leurs paramètres. Vous pouvez modifier ces valeurs à l'aide de la classification de configuration hdfs-site. Pour de plus amples informations, veuillez consulter Configuration des applications.

Avertissement
  1. La dfs.replication valeur 1 sur les clusters de moins de quatre nœuds peut entraîner une perte de HDFS données en cas de panne d'un seul nœud. Si votre cluster dispose d'un HDFS espace de stockage, nous vous recommandons de le configurer avec au moins quatre nœuds principaux pour les charges de travail de production afin d'éviter toute perte de données.

  2. Amazon n'EMRautorisera pas les clusters à dimensionner les nœuds principaux situés en dessousdfs.replication. Par exemple, si dfs.replication = 2, le nombre minimum de nœuds principaux est 2.

  3. Lorsque vous utilisez la mise à l'échelle gérée, autoscaling, ou que vous choisissez de redimensionner manuellement votre cluster, nous vous recommandons de définir dfs.replication sur une valeur supérieure ou égale à 2.

Paramètre Définition Valeur par défaut
dfs.block.size La taille des HDFS blocs. Lorsque vous travaillez sur des données stockées dansHDFS, la taille divisée est généralement la taille d'un HDFS bloc. Plus la taille est grande, plus la granularité de la tâche est faible. En revanche, les contraintes sur le NameNode du cluster sont moins importantes. 134217728 (128 Mo)
dfs.replication Le nombre de copies de chaque bloc à stocker pour des questions de durabilité. Amazon EMR définit cette valeur en fonction du nombre de nœuds principaux avec lesquels le cluster est approvisionné. Ajustez la valeur en fonction de vos besoins. Pour remplacer la valeur par défaut, utilisez la classification hdfs-site.

1 pour les clusters provisionnés avec moins de quatre nœuds principaux

2 pour les clusters approvisionnés avec moins de dix nœuds principaux

3 pour tous les autres clusters