As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Requisitos de cluster do Amazon EMR
Clusters do Amazon EMR em execução na Amazon EC2
Todos os clusters do Amazon EMR em execução na Amazon EC2 que você cria para um espaço de trabalho do EMR Studio devem atender aos seguintes requisitos. Os clusters criados usando a interface do EMR Studio atendem automaticamente a esses requisitos.
-
O cluster deve usar as versões 5.32.0 (Amazon EMR de série 5.x) ou 6.2.0 (Amazon EMR de série 6.x) ou posteriores do Amazon EMR. Você pode criar um cluster usando o console do Amazon EMR, ou SDK AWS Command Line Interface, e depois anexá-lo a um espaço de trabalho do EMR Studio. Os usuários do Studio também podem provisionar e anexar clusters ao criar ou trabalhar em um Workspace do Amazon EMR. Para obter mais informações, consulte Anexar uma computação a um Workspace do EMR Studio.
-
O cluster deve estar em uma Amazon Virtual Private Cloud. A plataforma EC2 -Classic não é suportada.
-
O cluster deve ter o Spark, o Livy e o Jupyter Enterprise Gateway instalados. Se você planeja usar o cluster para o SQL Explorer, deverá instalar o Presto e o Spark.
-
Para usar o SQL Explorer, o cluster deve usar a versão 5.34.0, ou versões posteriores, ou a versão 6.4.0, ou versões posteriores, do Amazon EMR e ter o Presto instalado. Se você quiser especificar o AWS Glue Data Catalog como o metastore do Hive para o Presto, você deve configurá-lo no cluster. Para obter mais informações, consulte Using Presto with the AWS Glue Data Catalog.
-
O cluster deve estar em uma sub-rede privada com conversão de endereços de rede (NAT) para usar repositórios Git hospedados publicamente com o EMR Studio.
Recomendamos as configurações de cluster apresentadas a seguir ao trabalhar com o EMR Studio.
-
Defina o modo de implantação das sessões do Spark para o modo de cluster. O modo de cluster coloca os processos principais de aplicações nos nós centrais e não no nó primário de um cluster. Isso alivia o nó primário de possíveis pressões de memória. Para obter mais informações, consulte o tópico de Visão geral do modo de cluster
na documentação do Apache Spark. -
Altere o tempo limite do Livy do padrão de uma hora para seis horas, como no exemplo de configuração apresentado a seguir.
{ "classification":"livy-conf", "Properties":{ "livy.server.session.timeout":"6h", "livy.spark.deploy-mode":"cluster" } }
-
Crie diversas frotas de instâncias com até 30 instâncias e selecione vários tipos de instâncias em sua frota de instâncias spot. Por exemplo, é possível especificar os seguintes tipos de instâncias otimizadas para memória para workloads do Spark: r5.2x, r5.4x, r5.8x, r5.12x, r5.16x, r4.2x, r4.4x, r4.8x, r4.12 etc. Para obter mais informações, consulte Planejamento e configuração de frotas de instâncias para o cluster do Amazon EMR.
-
Use a estratégia de alocação otimizada de capacidade para instâncias spot para ajudar o Amazon EMR a fazer seleções efetivas de instâncias com base em insights de capacidade em tempo real da Amazon. EC2 Para obter mais informações, consulte Estratégia de alocação para frotas de instâncias.
-
Habilite o ajuste de escala gerenciado em seu cluster. Defina o parâmetro máximo de nós centrais para a capacidade persistente mínima que você planeja usar, e configure a escalabilidade em uma frota de tarefas bem diversificada que é executada em instâncias spot para economizar custos. Para obter mais informações, consulte Usar o ajuste de escala gerenciado no Amazon EMR.
Também recomendamos manter o bloqueio de acesso público do Amazon EMR habilitado e restringir o tráfego SSH de entrada para origens confiáveis. O acesso de entrada a um cluster permite que os usuários executem cadernos no cluster. Para obter mais informações, consulte Usar o bloqueio de acesso público do Amazon EMR e Controle do tráfego de rede com grupos de segurança para o cluster do Amazon EMR.
Clusters do Amazon EMR no EKS
Além dos clusters do EMR em execução na Amazon EC2, você pode configurar e gerenciar o Amazon EMR em clusters EKS para o EMR Studio usando o. AWS CLI Configure os clusters do Amazon EMR no EKS usando as seguintes diretrizes:
-
Crie um endpoint HTTPS gerenciado para o cluster do Amazon EMR no EKS. Os usuários anexam um Workspace a um endpoint gerenciado. O cluster do Amazon Elastic Kubernetes Service (EKS) usado para registrar um cluster virtual deve ter uma sub-rede privada para oferecer suporte a endpoints gerenciados.
-
Use um cluster do Amazon EKS com, no mínimo, uma sub-rede privada e com conversão de endereços de rede (NAT) quando desejar usar repositórios Git hospedados publicamente.
-
Evite usar o Arm Amazon Linux otimizado para Amazon EKS AMIs, que não são compatíveis com o Amazon EMR em endpoints gerenciados por EKS.
-
Evite usar clusters AWS Fargate somente do Amazon EKS, que não são compatíveis.