As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Os cientistas e engenheiros de dados podem descobrir e se conectar a um cluster do Amazon EMR diretamente da interface de usuário do Studio. Antes de começar, certifique-se de ter configurado as permissões necessárias, conforme descrito na seção Etapa 4: configure as permissões para permitir a listagem e a inicialização de clusters do Amazon EMR a partir do Studio. Essas permissões concedem ao Studio a capacidade de criar, iniciar, visualizar, acessar e encerrar clusters.
Você pode conectar um cluster do Amazon EMR a um novo JupyterLab notebook diretamente da interface do usuário do Studio ou optar por iniciar a conexão em um notebook de um aplicativo em execução. JupyterLab
Importante
Você só pode descobrir e se conectar aos clusters do Amazon EMR JupyterLab e aos aplicativos do Studio Classic que são lançados a partir de espaços privados. Certifique-se de que os clusters do Amazon EMR estejam localizados na mesma AWS região do seu ambiente Studio. Seu JupyterLab espaço deve usar uma versão SageMaker de imagem de distribuição 1.10
ou superior.
Conecte-se a um cluster do Amazon EMR usando a interface de usuário do Studio
Para se conectar ao seu cluster usando a interface do usuário do Studio ou do Studio Classic, você pode iniciar uma conexão a partir da lista de clusters acessados ou de um notebook no SageMaker Studio ou no Studio Classic. Listar clusters do Amazon EMR no Studio ou no Studio Classic
Para conectar um cluster do Amazon EMR a um novo JupyterLab notebook a partir da interface do usuário do Studio:
-
No painel esquerdo da interface de usuário do Studio, selecione o nó Dados no menu de navegação esquerdo. Navegue até Aplicações e clusters do Amazon EMR. Isso abre uma página listando os clusters do Amazon EMR que você pode acessar por meio da guia Clusters do Amazon EMR.
nota
Se você ou seu administrador tiverem configurado as permissões para permitir o acesso entre contas aos clusters do Amazon EMR, você poderá visualizar uma lista consolidada de clusters em todas as contas às quais você concedeu acesso ao Studio.
-
Selecione um cluster do Amazon EMR que você deseja conectar a um novo caderno e, em seguida, escolha Anexar ao caderno. Isso abre uma janela modal exibindo a lista de seus JupyterLab espaços.
-
-
Selecione o espaço a partir do qual você deseja iniciar um JupyterLab aplicativo e escolha Abrir caderno. Isso inicia um JupyterLab aplicativo do espaço escolhido e abre um novo caderno.
nota
Os usuários do Studio Classic precisam selecionar uma imagem e um kernel. Para obter uma lista de imagens compatíveis, consulte Imagens e kernels compatíveis para se conectar a um cluster do Amazon EMR no Studio ou Studio Classic ou Traga sua própria imagem.
-
Como alternativa, você pode criar um novo espaço privado escolhendo o botão Criar novo espaço na parte superior da janela modal. Insira um nome para o seu espaço e escolha Criar espaço e abrir o caderno. Isso cria um espaço privado com o tipo de instância padrão e a imagem SageMaker de distribuição mais recente disponível, inicia um JupyterLab aplicativo e abre um novo notebook.
-
-
Se o cluster selecionado não usar Kerberos, LDAP ou autenticação da função de runtime, o Studio solicitará que você selecione o tipo de credencial. Escolha entre Autenticação básica HTTP ou Sem credenciais e, em seguida, insira suas credenciais, se aplicável.
Se o cluster selecionado for compatível com funções de runtime, escolha o nome do perfil do IAM que seu cluster do Amazon EMR pode assumir para a execução do trabalho.
Importante
Para conectar com sucesso um JupyterLab notebook a um cluster do Amazon EMR que suporta funções de tempo de execução, você deve primeiro associar a lista de funções de tempo de execução ao seu domínio ou perfil de usuário, conforme descrito em. Configurar perfis de runtime do IAM para acesso ao cluster do Amazon EMR no Studio A falha na conclusão dessa etapa impedirá que você estabeleça a conexão.
Após a seleção, um comando de conexão preenche a primeira célula do caderno e inicia a conexão com o cluster do Amazon EMR.
Quando a conexão for bem-sucedida, uma mensagem confirmará a conexão e o início da aplicação do Spark.
Como alternativa, você pode se conectar a um cluster a partir de um notebook Studio Classic JupyterLab ou Studio Classic.
-
Escolha o botão Cluster na parte superior do caderno. Isso abre uma janela modal listando os clusters do Amazon EMR em um estado
Running
que você pode acessar. Você pode ver os clustersRunning
do Amazon EMR na guia Clusters do Amazon EMR.nota
Para os usuários do Studio Classic, o Cluster só fica visível quando você usa um kernel de Imagens e kernels compatíveis para se conectar a um cluster do Amazon EMR no Studio ou Studio Classic ou Traga sua própria imagem. Se você não conseguir ver o Cluster na parte superior do caderno, verifique se o administrador configurou a capacidade de descoberta dos clusters e mude para um kernel compatível.
-
Selecione o cluster para o qual deseja se conectar e escolha Conectar.
-
Se você configurou os clusters do Amazon EMR para serem compatíveis com os perfis do IAM de runtime, você pode selecionar seu perfil no menu suspenso Perfil de execução do Amazon EMR.
Importante
Para conectar com sucesso um JupyterLab notebook a um cluster do Amazon EMR que suporta funções de tempo de execução, você deve primeiro associar a lista de funções de tempo de execução ao seu domínio ou perfil de usuário, conforme descrito em. Configurar perfis de runtime do IAM para acesso ao cluster do Amazon EMR no Studio A falha na conclusão dessa etapa impedirá que você estabeleça a conexão.
Caso contrário, se o cluster escolhido não usar Kerberos, LDAP ou autenticação de função de runtime, o Studio ou o Studio Classic solicitará que você selecione o tipo de credencial. Você pode escolher a autenticação básica HTTP ou Sem credencial.
-
O Studio adiciona e executa um bloco de código em uma célula ativa para estabelecer a conexão. Essa célula contém o comando mágico de conexão para conectar seu caderno à sua aplicação de acordo com o tipo de autenticação.
Quando a conexão for bem-sucedida, uma mensagem confirmará a conexão e o início da aplicação do Spark.
Conecte-se a um cluster do Amazon EMR usando um comando de conexão
Para estabelecer uma conexão com um cluster do Amazon EMR, você pode executar comandos de conexão em uma célula do caderno.
Ao estabelecer a conexão, você pode se autenticar usando Kerberos, Lightweight Directory Access Protocol (LDAP) ou autenticação de perfil do IAM de runtime. O método de autenticação depende da sua configuração de cluster.
É possível consultar o exemplo Acesso ao Apache Livy usando um Network Load Balancer em um cluster do Amazon EMR habilitado para Kerberos
Se seu administrador habilitou o acesso entre contas, você pode se conectar ao seu cluster do Amazon EMR a partir de um notebook Studio Classic, independentemente de seu aplicativo e cluster Studio Classic residirem na AWS mesma conta ou em contas diferentes.
Para cada um dos seguintes tipos de autenticação, use o comando especificado para se conectar ao cluster a partir do seu caderno do Studio ou Studio Classic:
-
Kerberos
Anexe o argumento
--assumable-role-arn
se você precisar de acesso entre contas ao Amazon EMR. Anexe o argumento--verify-certificate
se você se conectar ao seu cluster com HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id
cluster_id
\ --auth-type Kerberos --language python [--assumable-role-arnEMR_access_role_ARN
] [--verify-certificate/home/user/certificateKey.pem
] -
LDAP
Anexe o argumento
--assumable-role-arn
se você precisar de acesso entre contas ao Amazon EMR. Anexe o argumento--verify-certificate
se você se conectar ao seu cluster com HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id
cluster_id
\ --auth-type Basic_Access --language python [--assumable-role-arnEMR_access_role_ARN
] [--verify-certificate/home/user/certificateKey.pem
] -
NoAuth
Anexe o argumento
--assumable-role-arn
se você precisar de acesso entre contas ao Amazon EMR. Anexe o argumento--verify-certificate
se você se conectar ao seu cluster com HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id
cluster_id
\ --auth-type None --language python [--assumable-role-arnEMR_access_role_ARN
] [--verify-certificate/home/user/certificateKey.pem
] -
Perfis do IAM de runtime
Anexe o argumento
--assumable-role-arn
se você precisar de acesso entre contas ao Amazon EMR. Anexe o argumento--verify-certificate
se você se conectar ao seu cluster com HTTPS.Para obter mais informações sobre a conexão com um cluster do Amazon EMR usando os perfis do IAM no runtime, consulte Configurar perfis de runtime do IAM para acesso ao cluster do Amazon EMR no Studio .
%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id
cluster_id
\ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id
:role/emr-execution-role-name
[--assumable-role-arnEMR_access_role_ARN
] [--verify-certificate/home/user/certificateKey.pem
]
Conecte-se a um cluster do Amazon EMR por HTTPS
Se você configurou seu cluster do Amazon EMR com criptografia de trânsito habilitada e servidor Apache Livy para HTTPS e gostaria que o Studio ou o Studio Classic se comunicassem com o Amazon EMR usando HTTPS, você precisa configurar o Studio ou o Studio Classic para acessar a chave do certificado.
Para certificados autoassinados ou assinados pela Autoridade de Certificação (Certificate Authority, CA) local, você pode fazer isso em duas etapas:
-
Faça download do arquivo PEM do seu certificado para seu sistema de arquivos local usando uma das seguintes opções:
-
Função de upload de arquivos integrada do Jupyter.
-
Uma célula de cadernos.
-
(Somente para usuários do Studio Classic) Um script de configuração do ciclo de vida (LCC).
Para obter informações sobre como usar um script de LCC, consulte Personalizar uma instância de cadernos usando um script de configuração de ciclo de vida
-
-
Ative a validação do certificado fornecendo o caminho para seu certificado no argumento
--verify-certificate
do seu comando de conexão.%sm_analytics emr connect --cluster-id
cluster_id
\ --verify-certificate/home/user/certificateKey.pem
...
Para certificados públicos emitidos pela CA, defina a validação do certificado definindo o parâmetro --verify-certificate
como true
.
Como alternativa, você pode desativar a validação do certificado definindo o parâmetro --verify-certificate
como false
.
Você pode encontrar a lista de comandos de conexão disponíveis para um cluster do Amazon EMR em Conecte-se a um cluster do Amazon EMR usando um comando de conexão.