Como trabalhar com Cadernos do EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como trabalhar com Cadernos do EMR

nota

Os Notebooks EMR estão disponíveis como espaços de trabalho do EMR Studio no console. O botão Criar espaço de trabalho no console permite criar novos cadernos. Para acessar ou criar Workspaces, os usuários dos Cadernos do EMR precisam de permissões adicionais de perfil do IAM. Para obter mais informações, consulte Notebooks do Amazon EMR são espaços de trabalho do Amazon EMR Studio no console e no console do Amazon EMR.

Depois de criar um Caderno do EMR, o caderno demora um curto período para ser iniciado. O Status na lista Notebooks (Blocos de anotações) mostra Starting (Iniciando). Você pode abrir um bloco de anotações quando seu status for Ready (Pronto). Pode demorar um pouco mais para um bloco de anotações entrar no status Ready (Pronto) se você tiver criado um cluster com ele.

dica

Atualize o navegador ou escolha o ícone de atualização acima da lista de blocos de anotações para atualizar o status do bloco de anotações.

Noções básicas sobre o status do caderno

Um Caderno do EMR pode ter um dos Status apresentados a seguir na lista Cadernos.

Status Significado

Ready

Você pode abrir o bloco de anotações usando o editor de blocos de anotações. Enquanto um bloco de anotações estiver no status Ready (Pronto), você poderá interrompê-lo ou excluí-lo. Para alterar clusters, você deve interromper o bloco de anotações primeiro. Se um bloco de anotações no status Ready (Pronto) ficar ocioso por muito tempo, ele será interrompido automaticamente.

Starting

O bloco de anotações está sendo criado e conectado ao cluster. Enquanto um bloco de anotações estiver sendo iniciado, você não poderá abrir o editor de blocos de anotações, interromper, excluir nem alterar clusters.

Pendente

O bloco de anotações foi criado e está aguardando a integração com o cluster para ser concluído. O cluster ainda pode estar provisionamento recursos ou respondendo a outras solicitações. Você pode abrir o editor de blocos de anotações com o bloco de anotações no modo local. Qualquer código que se baseie em processos de cluster não será executado e falhará.

Parando

O bloco de anotações está sendo desligado ou o cluster ao qual o bloco de anotações está sendo anexado está sendo encerrado. Enquanto um bloco de anotações estiver sendo interrompido, você não poderá abrir o editor de blocos de anotações, interromper, excluir nem alterar clusters.

Interrompido

O bloco de anotações foi encerrado. Você pode iniciar o bloco de anotações no mesmo cluster, desde que o cluster ainda esteja em execução. Você pode alterar os clusters e excluir o cluster.

Excluindo

O cluster é removido da lista de clusters disponíveis. O arquivo de caderno NotebookName.ipynb permanece no Amazon S3 e continua acumulando as cobranças de armazenamento aplicáveis.

Como trabalhar com o editor de cadernos

Uma vantagem de usar um notebook EMR é que você pode iniciar o notebook no Jupyter ou JupyterLab diretamente do console.

Com o EMR Notebooks, o editor de notebook que você acessa do console do Amazon EMR é o conhecido editor de notebook Jupyter de código aberto ou. JupyterLab Como o editor de cadernos é iniciado no console do Amazon EMR, é mais eficiente para configurar o acesso do que com um caderno hospedado em um cluster do Amazon EMR. Você não precisa configurar um cliente do usuário para ter acesso à web por meio de SSH, regras de grupo de segurança e configurações de proxy. Se um usuário tiver permissões suficientes, ele poderá simplesmente abrir o editor de cadernos no console do Amazon EMR.

Somente um usuário pode ter um Caderno do EMR aberto por vez no Amazon EMR. Se outro usuário tentar abrir um Caderno do EMR que já esteja aberto, ocorrerá um erro.

Importante

O Amazon EMR cria um URL assinado previamente exclusivo para cada sessão do editor de cadernos, que é válido somente por um curto período. Recomendamos que você não compartilhe o URL do editor de bloco de anotações. Isso cria um risco à segurança porque os destinatários do URL adotam suas permissões para editar e executar o código do bloco de anotações durante a vida útil do URL. Se outras pessoas precisarem de acesso a um caderno, forneça permissões ao usuário por meio de políticas de permissões e garanta que o perfil de serviço dos Cadernos do EMR tenha acesso ao local do Amazon S3. Para obter mais informações, consulte Segurança e controle de acesso para Cadernos do EMR e Perfil de serviço para Cadernos do EMR.

Abrir o editor de cadernos para um Caderno do EMR
  1. Selecione um bloco de anotações com um Status de Ready (Pronto) ou Pending (Pendente) na lista Notebooks (Blocos de anotações).

  2. Escolha Abrir no JupyterLab ou Abrir no Jupyter.

    Uma nova guia do navegador é aberta para o editor JupyterLab ou o editor do Jupyter Notebook.

  3. No menu Kernel, escolha Change kernel (Alterar kernel) e, em seguida, selecione o kernel para sua linguagem de programação.

    Agora você está pronto para gravar e executar código de dentro do editor de blocos de anotações.

Como salvar o conteúdo de um caderno

Ao trabalhar no editor de cadernos, o conteúdo das células e as saídas do caderno são salvos automaticamente no arquivo de caderno no Amazon S3, de forma periódica. Um bloco de anotações que não tem alterações desde a última vez em que uma célula foi editada mostrará (autosaved) ao lado do nome do bloco de anotações no editor. Se as alterações ainda não foram salvas, unsaved changes (alterações não salvas) será exibido.

Você pode salvar um bloco de anotações manualmente. No menu Arquivo, escolha Salvar e ponto de verificação ou pressione CTRL+S. Isso cria um arquivo chamado NotebookName.ipynb em uma pasta de pontos de verificação dentro da pasta do caderno no Amazon S3. Por exemplo, s3://MyBucket/MyNotebookFolder/NotebookID/checkpoints/NotebookName.ipynb. Somente o arquivo de pontos de verificação mais recente é salvo nesse local.

Como alterar clusters

Você pode alterar o cluster ao qual um Caderno do EMR está anexado sem alterar o conteúdo do próprio caderno. Você pode alterar clusters apenas para os blocos de anotações que têm o status Stopped (Interrompido).

Alterar o cluster de um Caderno do EMR
  1. Se o bloco de anotações que você deseja alterar estiver em execução, selecione-o na lista Notebooks (Blocos de anotações) e escolha Stop (Interromper).

  2. Quando o status do bloco de anotações for Stopped (interrompido), selecione o bloco de anotações na lista Notebooks (Blocos de anotações) e, em seguida, escolha View details (Exibir detalhes).

  3. Escolha Change cluster (Alterar cluster).

  4. Se você tiver um cluster ativo com o Hadoop, Spark e Livy em execução ao qual você deseje anexar o bloco de anotações, deixe o padrão e selecione um cluster na lista. Somente clusters que atendam aos requisitos listados.

    —ou—

    Selecione Create a cluster (Criar um cluster) e escolha as opções de cluster. Para ter mais informações, consulte Requisitos de cluster.

  5. Escolha uma opção para Security groups (Grupos de segurança) e, em seguida, escolha Change cluster and start notebook (Alterar cluster e iniciar bloco de anotações).

Como excluir cadernos e arquivos de cadernos

Ao excluir um Caderno do EMR usando o console do Amazon EMR, você exclui o caderno da lista de cadernos disponíveis. No entanto, os arquivos de cadernos permanecem no Amazon S3 e continuam a acumular as cobranças de armazenamento.

Para excluir um bloco de anotações e remover arquivos associados
  1. Abra o console do Amazon EMR em https://console.aws.amazon.com/elasticmapreduce/.

  2. Escolha Notebooks (Blocos de anotações), selecione seu bloco de anotações na lista e, em seguida, escolha View details (Exibir detalhes).

  3. Escolha o ícone de pasta ao lado de Notebook location (Local do bloco de anotações) e copie o URL, que está no padrão s3://MyNotebookLocationPath/NotebookID/.

  4. Escolha Excluir.

    O bloco de anotações é removido da lista e os detalhes de bloco de anotações deixam de aparecer.

  5. Siga as instruções fornecidas em How do I delete folders from an S3 bucket? no Guia do usuário do Amazon Simple Storage Service. Navegue até o bucket e a pasta na etapa 3.

    —ou—

    Se você tiver o AWS CLI instalado, abra um prompt de comando e digite o comando no final deste parágrafo. Substitua o local do Amazon S3 pelo local que você copiou acima. Certifique-se de que AWS CLI esteja configurado com as chaves de acesso de um usuário com permissões para excluir a localização do Amazon S3. Para obter mais informações, consulte Configuração da AWS CLI no Guia do usuário da AWS Command Line Interface .

    aws s3 rm s3://MyNotebookLocationPath/NotebookID

Como compartilhar arquivos de cadernos

Cada Caderno do EMR é salvo no Amazon S3 como um arquivo chamado NotebookName.ipynb. Contanto que um arquivo de caderno seja compatível com a mesma versão do caderno Jupyter em que os Cadernos do EMR se baseiam, você poderá abrir o caderno como um Caderno do EMR.

A maneira mais fácil de abrir um arquivo de notebook de outro usuário é salvar o arquivo*.ipynb de outro usuário no sistema de arquivos local e, em seguida, usar o recurso de upload no Jupyter e nos editores. JupyterLab

É possível recorrer a esse processo para usar blocos de anotações do EMR compartilhados por outros, blocos de anotações compartilhados na comunidade do Jupyter ou para restaurar um bloco de anotações que foi excluído do console quando você ainda tinha o arquivo de bloco de anotações.

Usar um arquivo de caderno diferente como base para um Caderno do EMR
  1. Antes de continuar, feche o editor de cadernos de todos os cadernos com os quais você trabalhará e, em seguida, interrompa o caderno se for um Caderno do EMR.

  2. Crie um Caderno do EMR e insira um nome para ele. O nome que você inserir para o bloco de anotações será o nome do arquivo que você precisará substituir. O novo nome de arquivo deve corresponder exatamente ao nome desse arquivo.

  3. Anote o local no Amazon S3 que você escolheu para o caderno. O arquivo que você substituir está em uma pasta com um caminho e nome de arquivo como o padrão a seguir: s3://MyNotebookLocation/NotebookID/MyNotebookName.ipynb.

  4. Interrompa o bloco de anotações.

  5. Substitua o antigo arquivo de caderno no local do Amazon S3 pelo novo, usando exatamente o mesmo nome.

    O AWS CLI comando a seguir para o Amazon S3 substitui um arquivo salvo em uma máquina local chamada para SharedNotebook.ipynb um notebook EMR pelo nome MyNotebook, um ID de e-12A3BCDEFJHIJKLMNO45PQRST e criado com o especificado no MyBucket/MyNotebooksFolder Amazon S3. Para obter informações sobre como usar o console do Amazon S3 para copiar e substituir arquivos, consulte Fazer upload, fazer download e trabalhar com objetos no Guia do usuário do Amazon Simple Storage Service.

    aws s3 cp SharedNotebook.ipynb s3://MyBucket/MyNotebooksFolder/-12A3BCDEFJHIJKLMNO45PQRST/MyNotebook.ipynb