Controlar uma instância do Amazon EMR Spark usando um caderno

Importante

Políticas personalizadas do IAM que permitem que o Amazon SageMaker SageMaker Studio ou o Amazon Studio Classic criem SageMaker recursos da Amazon também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma política do IAM permitir que o Studio e o Studio Classic criem recursos, mas não permitisse a marcação, erros AccessDenied "" podem ocorrer ao tentar criar recursos. Para obter mais informações, consulte Forneça permissões para marcar recursos de SageMaker IA.

AWS políticas gerenciadas para Amazon SageMaker AIque dão permissões para criar SageMaker recursos já incluem permissões para adicionar tags ao criar esses recursos.

Você pode usar uma instância de notebook criada com um script de configuração de ciclo de vida personalizado para acessar AWS serviços do seu notebook. Por exemplo, é possível criar um script que permite usar seu caderno com o Sparkmagic para controlar outros recursos da AWS , como uma instância do Amazon EMR. Depois, você poderá usar a instância do Amazon EMR para processar seus dados em vez de executar a análise de dados em seu caderno. Isso permite que você crie uma instância de caderno menor porque você não usará a instância para processar dados. Isso é útil quando você tem conjuntos de dados grandes, que exigem uma instância de caderno grande para processar os dados.

O processo requer três procedimentos usando o console Amazon SageMaker AI:

Criar a instância do Amazon EMR Spark
Criar o caderno Jupyter
Teste a conexão do notebook-to-Amazon EMR

Para criar uma instância do Amazon EMR Spark que pode ser controlada de um caderno usando o Sparkmagic

Abra o console do Amazon EMR em https://console.aws.amazon.com/elasticmapreduce/.
No painel de navegação, escolha Criar cluster.
Na página Criar Cluster: Opções rápidas em Configuração de software, escolha Spark: Spark 2.4.4 no Hadoop 2.8.5 YARN com Ganglia 3.7.2 e Zeppelin 0.8.2.
Defina parâmetros adicionais na página e escolha Create cluster (Criar cluster).
Na página Cluster escolha o nome do cluster que você criou. Observe o DNS público principal, o Grupo de segurança do EMR principal, e o nome da VPC e o ID da sub-rede onde o cluster do EMR foi criado. Você usará esses valores quando criar um caderno.

Para criar um caderno que usa o Sparkmagic para controlar uma instância do Amazon EMR Spark

Abra o console Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
No painel de navegação, em Instâncias de caderno, escolha Criar caderno.
Insira o nome da instância de caderno e escolha o tipo de instância.
Escolha Configuração adicional e, em Configuração do ciclo de vida, escolha Criar uma configuração do ciclo de vida.

Adicione o seguinte código ao script de configuração do ciclo de vida:



# OVERVIEW
# This script connects an Amazon EMR cluster to an Amazon SageMaker notebook instance that uses Sparkmagic.
#
# Note that this script will fail if the Amazon EMR cluster's master node IP address is not reachable.
#   1. Ensure that the EMR master node IP is resolvable from the notebook instance.
#      One way to accomplish this is to have the notebook instance and the Amazon EMR cluster in the same subnet.
#   2. Ensure the EMR master node security group provides inbound access from the notebook instance security group.
#       Type        - Protocol - Port - Source
#       Custom TCP  - TCP      - 8998 - $NOTEBOOK_SECURITY_GROUP
#   3. Ensure the notebook instance has internet connectivity to fetch the SparkMagic example config.
#
# https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-backed-by-spark-in-amazon-emr/

# PARAMETERS
EMR_MASTER_IP=your.emr.master.ip


cd /home/ec2-user/.sparkmagic

echo "Fetching Sparkmagic example config from GitHub..."
wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.json

echo "Replacing EMR master node IP in Sparkmagic config..."
sed -i -- "s/localhost/$EMR_MASTER_IP/g" example_config.json
mv example_config.json config.json

echo "Sending a sample request to Livy.."
curl "$EMR_MASTER_IP:8998/sessions"

Na seção PARAMETERS do script, substitua your.emr.master.ip pelo nome do DNS público principal da instância do Amazon EMR.
Escolha Criar configuração.
Na página Criar caderno, selecione Rede - opcional.
Escolha a VPC e a sub-rede onde a instância do Amazon EMR está localizada.
Escolha o grupo de segurança usado pelo nó principal do Amazon EMR.
Escolha Criar instância de caderno.

Enquanto a instância de caderno estiver sendo criada, o status será Pending. Depois que a instância for criada e o script de configuração do ciclo de vida for executado com sucesso, o status será. InService

nota

Se a instância do notebook não conseguir se conectar à instância do Amazon EMR, a SageMaker IA não poderá criar a instância do notebook. Pode haver falha na conexão se a instância do Amazon EMR e o caderno não estiverem na mesma VPC e sub-rede, se o grupo de segurança principal do Amazon EMR não for usado pelo caderno ou se o nome do DNS público principal no script estiver incorreto.

Para testar a conexão entre a instância do Amazon EMR e o caderno

Quando o status do notebook for InService, escolha Abrir o Jupyter para abrir o notebook.
Escolha Novo e, em seguida, escolha Sparkmagic () PySpark.

Na célula de código, digite %%info e execute a célula.

A saída deve ser semelhante ao seguinte:

Current session configs: {'driverMemory': '1000M', 'executorCores': 2, 'kind': 'pyspark'}
                    No active sessions.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Atualizações de software de instâncias de caderno

Cadernos de exemplo de acesso