Seleção e implantação de um cluster do Amazon EMR - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Seleção e implantação de um cluster do Amazon EMR

Identifique e organize os tipos de nós. Quando você define seu cluster do Amazon EMR, é importante entender seu hardware. Como funciona? Como é composto? As respostas a essas perguntas incluem três partes:

  • O tipo de nós

  • A função que cada nó carrega

  • Os tipos de instâncias do EC2 que são mais eficientes para cada nó

Inicialmente, o nó primário é responsável por gerenciar os recursos gerais. Ele executa os principais componentes do aplicativo distribuído. Por exemplo, ele executa o NameNode serviço Hadoop Distributed File System (HDFS), rastreia as tarefas a serem feitas no cluster e monitora a integridade do sistema.

Além disso, o Amazon EMR tem nós principais e nós de tarefas. Os nós centrais são gerenciados pelo nó primário. Os nós principais executam nós de tarefas e são responsáveis por armazenar dados no HDFS no cluster. Os nós de tarefas são responsáveis por gerenciar as tarefas que chegam ao cluster. Um nó de tarefa não armazena dados. (Os nós de tarefas não são obrigatórios.)

Ao configurar e implantar seu cluster do Amazon EMR, uma consideração importante é a escolha certa de suas instâncias EC2 que representarão seus nós de cluster. Há várias maneiras de adicionar instâncias do EC2 a um cluster, dependendo se você usa a configuração de grupos de instâncias ou a configuração de frotas de instâncias para o cluster. Para obter mais informações sobre os tipos de instância compatíveis, consulte a AWS documentação.

As diretrizes a seguir se aplicam à maioria dos clusters do Amazon EMR. Você também pode analisar as melhores práticas de configuração do cluster.

Diretrizes de seleção de instâncias

Em geral, quais instâncias são preferidas para sua implementação do Amazon EMR dependem do trabalho que você está executando. Considere as seguintes perguntas:

  • Sua memória de trabalho consome muita memória?

  • Seu trabalho consome muita CPU?

  • Você precisa de grandes quantidades de armazenamento?

  • Seu trabalho exige capacidade de GPU?

Essas perguntas ajudarão você a entender o tipo de instâncias de que você precisa e as características reais de que precisa. Determine quantos trabalhos você deseja processar ao mesmo tempo e com que rapidez você precisa que os trabalhos sejam processados. Isso é importante porque o uso do Amazon EMR é cobrado em incrementos de hora em hora. Quando você ativa um cluster, você é cobrado pela hora inteira.

Você pode verificar o custo de cada instância em execução em diferentes AWS regiões. Para comparar preços entre regiões, você pode usar a Calculadora de AWS preços e alterar os valores com base na sua localização.

Seleção de instâncias do EC2

Depois de responder às perguntas anteriores, é hora de selecionar as instâncias com base nesses requisitos. Depois de entender as necessidades do seu trabalho de processamento, determine o tipo de instância com base nas características de que você precisa:

  • Se você precisar de instâncias de uso geral, escolha instâncias M6g, T4g ou M5.

  • Se você precisar de instâncias otimizadas para computação, escolha instâncias C6g ou C5.

  • Se você precisar de instâncias otimizadas para memória, escolha instâncias R6g, X1, R5 ou z1d.

  • Se você precisar otimizar o armazenamento, escolha instâncias I3, que oferecem alto desempenho de E/S.

  • Se você precisar de computação acelerada, como GPU, escolha instâncias P3, G4 ou Inf1. Esses tipos de instância fornecem alto desempenho para aprendizado de máquina e dinâmica de fluidos, entre outros processos.

Outra forma de entender os tipos de instâncias e seus recursos é analisar a memória padrão para cada tipo de instância. Essa métrica ajuda você a ajustar e melhorar o desempenho de seus MapReduce trabalhos. Para obter mais informações, consulte Configurações do daemon do Hadoop.

Quando você sabe o tipo de instâncias de que precisa, pode planejar a capacidade do seu cluster.