Iniciando ETL trabalhos visuais em AWS Glue Studio - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Iniciando ETL trabalhos visuais em AWS Glue Studio

Você pode usar a interface visual simples AWS Glue Studio para criar seus ETL trabalhos. Você pode usar a página Jobs (Trabalhos) para criar novos trabalhos. Você também pode usar um editor de scripts ou um notebook para trabalhar diretamente com o código no script do AWS Glue Studio ETL trabalho.

Na página Jobs (Trabalhos), você também pode ver todos os trabalhos que criou com o AWS Glue Studio ou o AWS Glue. Você pode exibir, gerenciar e executar seus trabalhos nessa página.

Veja também o tutorial do blog em outro exemplo de como criar ETL empregos comAWS Glue Studio.

Iniciar trabalhos no AWS Glue Studio

O AWS Glue permite criar um trabalho por meio de uma interface visual, um caderno de código interativo ou com um editor de scripts. Você pode iniciar um trabalho clicando em qualquer uma das opções ou criar um novo trabalho com base em um trabalho de exemplo.

Exemplos de trabalhos de criação de trabalho com a ferramenta de sua escolha. Por exemplo, exemplos de tarefas permitem que você crie uma ETL tarefa visual que une CSV arquivos em uma tabela de catálogos, crie uma tarefa em um caderno de código interativo com o AWS Glue for Ray ou AWS Glue para o Spark ao trabalhar com pandas ou crie uma tarefa em um caderno de código interativo com o Spark. SQL

Criando um trabalho no AWS Glue Studio do zero

  1. Faça login no AWS Management Console e abra o AWS Glue Studio console em https://console.aws.amazon.com/gluestudio/.

  2. Escolha ETLtrabalhos no painel de navegação.

  3. Na seção Criar trabalho, escolha uma opção de configuração para o seu trabalho.

    A captura de tela mostra a página Jobs (Trabalhos) do AWS Glue Studio. Na seção “Criar trabalho”, são exibidas as opções de criação de trabalho. Na seção “Trabalhos de exemplo”, escolha uma opção e, em seguida, escolha Criar trabalho de exemplo para iniciar um trabalho de exemplo.

    Opções para criar um trabalho do zero:

    • Visual ETL — autor em uma interface visual focada no fluxo de dados

    • Criar usando um caderno de código interativo: criar trabalhos interativamente em uma interface de caderno baseada em cadernos Jupyter

      Quando seleciona esta opção, você deve fornecer informações adicionais antes de criar uma sessão de criação de caderno. Para obter mais informações sobre como especificar essas informações, consulte Conceitos básicos de cadernos no AWS Glue Studio.

    • Crie código com um editor de scripts — Para quem está familiarizado com programação e escrita de ETL scripts, escolha essa opção para criar uma nova ETL tarefa do Spark. Escolha o mecanismo (Python shell, Ray, Spark (Python) ou Spark (Scala). Em seguida, escolha Começar do zero ou Carregar script. Carregar um script existente a partir de um arquivo local. Se você optar por usar o editor de scripts, não será possível usar o editor de trabalhos visual para criar ou editar seu trabalho.

      Um trabalho do Spark é executado em um ambiente Apache Spark gerenciado pelo AWS Glue. Por padrão, novos scripts são codificados em Python. Para escrever um novo script em Scala, consulte Criar e editar scripts em Scala no AWS Glue Studio.

Criar um trabalho no AWS Glue Studio partir de um trabalho de exemplo

Você pode optar por criar um trabalho a partir de um trabalho de exemplo. Na seção Trabalhos de exemplo, escolha um trabalho de exemplo e, em seguida, escolha Criar trabalho de exemplo. A criação de um trabalho de exemplo a partir de uma das opções fornece um modelo rápido com o qual você pode trabalhar.

  1. Faça login no AWS Management Console e abra o AWS Glue Studio console em https://console.aws.amazon.com/gluestudio/.

  2. Escolha ETLtrabalhos no painel de navegação.

  3. Selecione uma opção para criar um trabalho a partir de um trabalho de exemplo:

    • ETLTrabalho visual para unir várias fontes — leia três CSV arquivos, combine os dados, altere os tipos de dados e, em seguida, grave os dados no Amazon S3 e cataloge-os para consulta posterior.

    • Notebook Spark usando Pandas: explorar e visualizar dados usando a popular estrutura do Panda combinada com o Spark.

    • Usando o notebook Spark SQL — Use SQL para começar rapidamente a usar o Apache Spark. Acessar dados por meio do catálogo de dados do AWS Glue e transformá-los usando comandos familiares.

  4. Escolha Criar trabalho de exemplo.