Melhores práticas de configuração do Amazon EMR - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Melhores práticas de configuração do Amazon EMR

Ao configurar seu cluster do Amazon EMR, use as seguintes melhores práticas para adicionar instâncias, trabalhar com grupos de instâncias e usar instâncias spot.

Adicionar instâncias

Ao configurar seu cluster EMR, uma consideração importante é a escolha certa de EC2 suas instâncias que representarão seus nós de cluster. Lembre-se de que você não pode alterar o tipo de instâncias, como alterar instâncias spot para instâncias sob demanda, quando o cluster está em execução. Para alterar o nó primário, você deve desligar o cluster e criar um novo. É por isso que você deve escolher o tipo de instância correto para ter o menor tempo de inatividade possível. Para obter mais informações, consulte Diretrizes e melhores práticas de configuração de clusters.

Há várias maneiras de adicionar EC2 instâncias a um cluster, dependendo se você usa a configuração de grupos de instâncias ou a configuração de frotas de instâncias para o cluster:

  • Adicionar EC2 instâncias manualmente

  • Adicione manualmente uma tarefa ao grupo de instâncias para adicionar automaticamente uma instância

  • Configurar o escalonamento automático

Grupos de instâncias

Ao adicionar EC2 instâncias à sua configuração, considere usar grupos de instâncias. Se você estiver adicionando instâncias manualmente, poderá adicionar instâncias do mesmo tipo aos grupos de instâncias principais e de tarefas existentes. Além disso, você pode adicionar um grupo de instâncias de tarefas, que pode usar um tipo de instância diferente.

Por fim, configure a escalabilidade automática no Amazon EMR para um grupo de instâncias. As instâncias podem ser adicionadas e removidas automaticamente com base no valor de uma CloudWatch métrica da Amazon que você especificar. Caso contrário, se você estiver usando frotas de instâncias, adicione uma única frota de instâncias de tarefas. Em seguida, altere a capacidade alvo para instâncias sob demanda e instâncias spot para frotas de instâncias principais e de tarefas existentes.

Instâncias spot

Use instâncias spot em nós de tarefas. Os nós da tarefa processam dados, mas não mantêm dados persistentes no Hadoop Distributed File System (HDFS). Se os nós de tarefas forem encerrados porque o preço spot subiu acima do preço spot máximo, nenhum dado será perdido e o efeito no cluster será mínimo.

Quando você executa grupos de instâncias de tarefas como Instâncias Spot, o Amazon EMR provisiona o maior número possível de nós de tarefas, usando seu preço spot máximo. Por exemplo, você pode solicitar um grupo de instâncias de tarefas com seis nós. Se apenas cinco instâncias spot estiverem disponíveis no preço spot máximo ou abaixo dele, o Amazon EMR lançará o grupo de instâncias com cinco nós. O Amazon EMR adiciona o sexto nó posteriormente, se possível. Para obter mais informações, consulte Diretrizes e melhores práticas de configuração de clusters.