As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparar dados usando o EMR Sem Servidor
Começando com a versão da imagem de SageMaker distribuição1.10
, o Amazon SageMaker Studio se integra ao EMR Serverless. Nos JupyterLab notebooks do SageMaker Studio, cientistas e engenheiros de dados podem descobrir e se conectar aos aplicativos EMR Serverless e, em seguida, explorar, visualizar e preparar, de forma interativa, cargas de trabalho Apache Spark ou Apache Hive. Essa integração permite realizar o pré-processamento interativo de dados em grande escala na preparação para o treinamento e a implantação do modelo de ML.
Especificamente, a versão atualizada da versão de imagem de distribuição sagemaker-studio-analytics-extension
1.10
aproveita a integração entre o Apache Livy e o EMR Serverless, permitindo a conexão com um endpoint Apache Livy por meio de notebooks. JupyterLab Esta seção pressupõe conhecimento prévio das aplicações interativos do EMR Sem Servidor.
Importante
Ao usar o Studio, você só pode descobrir e se conectar aos aplicativos EMR Serverless para JupyterLab aplicativos que são iniciados a partir de espaços privados. Certifique-se de que os aplicativos EMR Serverless estejam localizados na mesma AWS região do seu ambiente Studio.
Pré-requisitos
Antes de começar a executar cargas de trabalho interativas com o EMR Serverless em JupyterLab seus notebooks, certifique-se de atender aos seguintes pré-requisitos:
-
Seu JupyterLab espaço deve usar uma versão SageMaker de imagem de distribuição
1.10
ou superior. -
Crie uma aplicação interativa do EMR Sem Servidor com a versão
6.14.0
ou posterior do Amazon EMR. Você pode criar uma aplicação do EMR Sem Servidor por meio da interface de usuário do Studio seguindo as etapas em Criar aplicações do EMR Sem Servidor a partir do Studio.nota
Para uma configuração mais simples, você pode criar sua aplicação do EMR Sem Servidor na interface de usuário do Studio sem alterar nenhuma configuração padrão da opção Nuvem privada virtual (VPC). Isso permite que a aplicação seja criado na VPC do domínio sem exigir nenhuma configuração de rede. Nesse caso, você pode ignorar a etapa de configuração de rede a seguir.
-
Analise os requisitos de rede e segurança em Configurar o acesso à rede para o cluster do Amazon EMR. Especificamente, confira se você:
-
Estabeleceu uma conexão de emparelhamento de VPC entre sua conta do Studio e sua conta do EMR Sem Servidor.
-
Adicionou rotas às tabelas de rotas da sub-rede privada em ambas as contas.
-
Configurou o grupo de segurança anexado ao seu domínio do Studio para permitir o tráfego de saída e o grupo de segurança da VPC em que pretende executar as aplicações do EMR Sem Servidor para permitir o tráfego TCP de entrada vindo do grupo de segurança da instância do Studio.
-
-
Para acessar seus aplicativos interativos no EMR Serverless e executar cargas de trabalho enviadas de seus JupyterLab notebooks no SageMaker Studio, você deve atribuir permissões e funções específicas. Consulte a seção Configure as permissões para permitir a listagem e o lançamento de aplicativos do Amazon EMR a partir do Studio SageMaker para obter detalhes sobre as funções e permissões necessárias.