Criar um fluxo de trabalho com base em um esquema no AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar um fluxo de trabalho com base em um esquema no AWS Glue

É possível criar um fluxo de trabalho do AWS Glue manualmente, adicionando um componente de cada vez, ou você pode criar um fluxo de trabalho a partir de um esquema do AWS Glue. O AWS Glue inclui esquemas para casos de uso comuns. Seus desenvolvedores do AWS Glue podem criar esquemas adicionais.

Importante

Limite o número total de trabalhos, crawlers e gatilhos em um fluxo de trabalho para 100 ou menos. Se você incluir mais de 100, poderá receber erros ao tentar retomar ou interromper as execuções do fluxo de trabalho.

Ao usar um blueprint, você pode gerar rapidamente um fluxo de trabalho para um caso de uso específico com base no caso de uso generalizado definido pelo blueprint. Você define o caso de uso específico fornecendo valores para os parâmetros do blueprint. Por exemplo, um blueprint que particiona um conjunto de dados pode ter os caminhos de fonte e de destino do Amazon S3 como parâmetros.

O AWS Glue cria um fluxo de trabalho a partir de um esquema executando o esquema. A execução do blueprint salva os valores de parâmetro fornecidos e é usada para rastrear o progresso e o resultado da criação do fluxo de trabalho e de seus componentes. Ao solucionar problemas de um fluxo de trabalho, você pode exibir a execução do blueprint para determinar os valores de parâmetro do blueprint usados para criar um fluxo de trabalho.

Para criar e exibir fluxos de trabalho, você precisa de determinadas permissões do IAM. Para ver uma sugestão de política do IAM, consulte Permissões de analista de dados para esquemas.

Você pode criar um fluxo de trabalho a partir de um esquema usando o console do AWS Glue, a API do AWS Glue ou a AWS Command Line Interface (AWS CLI).

Para criar um fluxo de trabalho a partir de um blueprint (console)
  1. Abra o console do AWS Glue em https://console.aws.amazon.com/glue/.

    Faça login como um usuário que tem permissões para criar um fluxo de trabalho.

  2. No painel de navegação, escolha Blueprints (Esquemas).

  3. Selecione um blueprint e, no menu Actions (Ações), escolha Create workflow (Criar fluxo de trabalho).

  4. Na página Create a workflow from <blueprint-name> (Criar um fluxo de trabalho a partir de <nome-do-blueprint>), insira as seguintes informações:

    Parâmetros do blueprint

    Estes variam dependendo do design do blueprint. Para dúvidas sobre os parâmetros, consulte o desenvolvedor. Os esquemas geralmente contêm um parâmetro para o nome do fluxo de trabalho.

    IAM role (Perfil do IAM)

    A função que o AWS Glue assume para criar o fluxo de trabalho e seus componentes. A função deve ter permissões para criar e excluir fluxos de trabalho, trabalhos, crawlers e acionadores. Para obter uma política sugerida para a função, consulte Permissões para perfis de esquema.

  5. Selecione Enviar.

    A página Blueprint Details (Detalhes do blueprint) é exibida, mostrando uma lista de execuções do blueprint na parte inferior.

  6. Na lista de execuções do blueprint, verifique a execução do blueprint mais alta quanto ao status de criação do fluxo de trabalho.

    O status inicial é RUNNING. Escolha o botão de atualização até que o status mude para SUCCEEDED ou FAILED.

  7. Execute um destes procedimentos:

    • Se o status de conclusão for SUCCEEDED, você pode ir para a página Workflows (Fluxos de trabalho), selecionar o fluxo de trabalho recém-criado e executá-lo. Antes de executar o fluxo de trabalho, você pode revisar o gráfico de design.

    • Se o status de conclusão for FAILED, selecione a execução do blueprint e, no menu Actions (Ações), escolha View (Exibir), para visualizar a mensagem de erro.

Para obter mais informações sobre fluxos de trabalho e esquemas, consulte os tópicos a seguir.