Configurar o hardware e as redes do cluster - Amazon EMR

Configurar o hardware e as redes do cluster

Uma consideração importante ao criar um cluster do Amazon EMR é como configurar instâncias do Amazon EC2 e opções de rede. Este capítulo aborda as opções a seguir e vincula todos eles em conjunto com as práticas recomendadas e diretrizes.

  • Tipos de nós: as instâncias do Amazon EC2 em um cluster do EMR são organizadas por tipos de nós. Existem três: nós primários, nós centrais e nós de tarefa. Cada tipo de nó realiza um conjunto de funções definidas pelos aplicativos distribuídos que você instala no cluster. Durante um trabalho do Hadoop MapReduce ou do Spark, por exemplo, os componentes em nós centrais e de tarefa processam os dados, transferem a saída para o Amazon S3 ou o HDFS e fornecem metadados de status de volta ao nó primário. Com um cluster de nó único, todos os componentes são executados no nó primário. Para obter mais informações, consulte Noções básicas sobre tipos de nó: nós primários, centrais e de tarefa.

  • Instâncias EC2: ao criar um cluster, você faz escolhas sobre as instâncias do Amazon EC2 nas quais cada tipo de nó será executado. O tipo de instância do EC2 determina o perfil de processamento e armazenamento do nó. A escolha da instância do Amazon EC2 para os nós é importante porque determina o perfil de performance dos tipos de nós individuais do cluster. Para obter mais informações, consulte Configurar instâncias do Amazon EC2.

  • Redes: é possível iniciar o cluster do Amazon EMR em uma VPC usando uma sub-rede pública, uma sub-rede privada ou uma sub-rede compartilhada. A configuração de redes determina como clientes e serviços podem se conectar aos clusters para realizar o trabalho, como os clusters se conectam aos armazenamentos de dados e outros recursos da AWS e as opções que você tem para controlar o tráfego nessas conexões. Para obter mais informações, consulte Configurar redes.

  • Agrupamento de instâncias: a coleção de instâncias do EC2 que hospedam cada tipo de nó é chamada de frota de instâncias ou grupo de instâncias uniforme. A configuração de agrupamento de instâncias é uma escolha que deve ser feita ao criar um cluster. Essa escolha determina como você poderá adicionar nós ao cluster enquanto ele estiver em execução. A configuração se aplica a todos os tipos de nó. Não é possível alterá-lo mais tarde. Para obter mais informações, consulte Criar um cluster com frotas de instâncias ou grupos de instâncias uniformes.

    nota

    A configuração de frotas de instância só está disponível em versões do Amazon EMR 4.8.0 e posteriores, exceto versões 5.0.0 e 5.0.3.