HDFSconfiguração - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

HDFSconfiguração

A tabela a seguir descreve os parâmetros padrão do Hadoop Distributed File System (HDFS) e suas configurações. Você pode alterar esses valores usando a classificação de configuração hdfs-site. Para obter mais informações, consulte Configurar aplicações.

Atenção
  1. dfs.replicationDefinir como 1 em clusters com menos de quatro nós pode levar à perda de HDFS dados se um único nó ficar inativo. Se seu cluster tiver HDFS armazenamento, recomendamos que você configure o cluster com pelo menos quatro nós principais para cargas de trabalho de produção, a fim de evitar perda de dados.

  2. A Amazon não EMR permitirá que os clusters escalem os nós principais abaixodfs.replication. Por exemplo, se dfs.replication = 2, o número mínimo de nós central será 2.

  3. Ao usar o Ajuste de Escala Gerenciado, o ajuste de escala automático ou optar por redimensionar manualmente o cluster, é recomendável definir dfs.replication como 2 ou mais.

Parâmetro Definição Valor padrão
dfs.block.size O tamanho dos HDFS blocos. Ao operar com dados armazenados emHDFS, o tamanho da divisão geralmente é o tamanho de um HDFS bloco. Números maiores fornecem menos granularidade de tarefas, mas também impõem menos pressão no cluster NameNode. 134217728 (128 MB)
dfs.replication O número de cópias de cada bloco a ser armazenado para durabilidade. A Amazon EMR define esse valor com base no número de nós principais com os quais o cluster é provisionado. Ajuste o valor para atender a suas necessidades. Para substituir o valor padrão, use a classificação hdfs-site.

1 para clusters provisionados com menos de quatro nós centrais

2 para clusters provisionados com menos de dez nós centrais

3 para todos os outros clusters