Criar e desenvolver um fluxo de trabalho manualmente no AWS Glue - AWS Glue

Criar e desenvolver um fluxo de trabalho manualmente no AWS Glue

Use o console do AWS Glue para criar e construir manualmente um fluxo de trabalho um nó por vez.

Um fluxo de trabalho contém tarefas, crawlers e gatilhos. Antes de criar manualmente um fluxo de trabalho, crie os trabalhos e crawlers que o fluxo de trabalho deve incluir. É melhor especificar crawlers com execução sob demanda para fluxos de trabalho. É possível criar gatilhos durante o desenvolvimento do fluxo de trabalho ou clonar gatilhos existentes no fluxo de trabalho. Quando você clona um acionador, todos os objetos do catálogo associados ao acionador (os trabalhos ou crawlers que o acionam e os trabalhos ou crawlers que ele inicia) são adicionados ao fluxo de trabalho.

Importante

Limite o número total de trabalhos, crawlers e acionadores em um fluxo de trabalho a 100 ou menos. Se você incluir mais de 100, poderá receber erros ao tentar retomar ou interromper as execuções do fluxo de trabalho.

Desenvolva o fluxo de trabalho ao adicionar gatilhos ao gráfico do fluxo de trabalho e ao definir os eventos monitorados e as ações para cada gatilho. Comece com um gatilho de início, que pode ser um gatilho sob demanda ou programado e conclua o gráfico adicionando gatilhos de evento (condicionais).

Etapa 1: Criar o fluxo de trabalho

  1. Faça logon no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. No painel de navegação, em ETL, selecione Workflows (Fluxos de trabalho).

  3. Selecione Add workflow (Adicionar fluxo de trabalho) e preencha o formulário Add a new ETL workflow (Adicionar um novo fluxo de trabalho de ETL).

    As propriedades de execução padrão opcional que você adicionar são disponibilizadas como argumentos para todas as tarefas no fluxo de trabalho. Para ter mais informações, consulte Obter e configurar as propriedades de execução de fluxo de trabalho no AWS Glue.

  4. Selecione Add workflow (Adicionar fluxo de trabalho).

    O novo fluxo de trabalho é exibido na lista da página Workflows (Fluxos de trabalho).

Etapa 2: Adicionar um gatilho de início

  1. Na página Workflows (Fluxos de trabalho), selecione o novo fluxo de trabalho. Em seguida, na parte inferior da página, certifique-se de que a guia Graph (Gráfico) esteja selecionada.

  2. Selecione Add trigger (Adicionar gatilho) e na caixa de diálogo Add trigger (Adicionar gatilho), execute uma das seguintes ações:

    • Selecione Clone existing (Clonar existente), e escolha um gatilho para ser clonado. Em seguida, escolha Adicionar.

      O gatilho é exibido no gráfico com as tarefas e os crawlers que ele monitora e as tarefas e os crawlers que ele inicia.

      Se você selecionou o gatilho errado por engano, selecione o gatilho no gráfico e selecione Remove (Remover).

    • Selecione Add new (Adicionar novo) e preencha o formulário Add trigger (Adicionar gatilho).

      1. Para Trigger type (Tipo de acionador), selecione Schedule (Programação), On demand (Sob demanda) ou EventBridge event (Evento do EventBridge).

        Para o tipo de acionador Schedule (Programação), escolha uma das opções de Frequency (Frequência). Escolha Custom (Personalizado) para inserir uma expressão cron.

        Para o tipo de acionador EventBridge event (Evento do EventBridge), insira o Number of events (Número de eventos; tamanho do lote) e, opcionalmente, insira o Time delay (Tempo de atraso; janela de lote). Se você omitir o Time delay (Tempo de atraso), o padrão da janela do lote será 15 minutos. Para ter mais informações, consulte Visão geral de fluxos de trabalho no AWS Glue.

      2. Escolha Add.

      O gatilho é exibido no gráfico com um nó de espaço reservado (identificado como Add node (Adicionar nó)). No exemplo abaixo, o acionador de início é um acionador de programação chamado Month-close1.

      Neste momento, o acionador ainda não está salvo.

      Um gráfico com dois nós retangulares: um nó de gatilho e um nó de espaço reservado. Uma seta aponta do nó do acionador para o nó de espaço reservado.
  3. Se você adicionou um novo gatilho, execute estas etapas:

    1. Execute um destes procedimentos:

      • Escolha o nó de espaço reservado (Add node (Adicionar nó)).

      • Certifique-se de que o gatilho de início esteja selecionado e, no menu Action (Ação) acima do gráfico, selecione Add jobs/crawlers to trigger (Adicionar tarefas/crawlers ao gatilho).

    2. Na caixa de diálogo Add job(s) and crawler(s) to trigger (Adicionar tarefas e crawlers ao gatilho), selecione uma ou mais tarefas ou crawlers e selecione Add (Adicionar).

      O gatilho é salvo e as tarefas ou crawlers selecionados são exibidos no gráfico com conectores do gatilho.

      Se você adicionou tarefas ou crawlers errados por engano, pode selecionar o gatilho ou um conector e selecionar Remove (Remover).

Etapa 3: adicionar mais acionadores

Continue a construir o fluxo de trabalho adicionando mais acionadores do tipo Event (Evento). Para aumentar ou diminuir o zoom ou para ampliar a tela do gráfico, use os ícones à direita do gráfico. Para cada gatilho a ser adicionado, conclua as seguintes etapas:

nota

Não há nenhuma ação para salvar o fluxo de trabalho. Depois de adicionar o último acionador e atribuir ações a ele, o fluxo de trabalho será concluído e salvo. Você pode voltar a qualquer momento e adicionar mais nós.

  1. Execute um destes procedimentos:

    • Para clonar um gatilho existente, certifique-se de que nenhum nó do gráfico esteja selecionado e, no menu Action (Ação), selecione Add trigger (Adicionar gatilho).

    • Para adicionar um novo gatilho que monitora uma tarefa ou um crawler específico no gráfico, selecione o nó da tarefa ou do crawler e selecione o nó do espaço reservado Add trigger (Adicionar gatilho).

      É possível adicionar mais tarefas ou crawlers a serem monitorados por esse gatilho em uma etapa posterior.

  2. Na caixa de diálogo Add trigger (Adicionar gatilho), siga um destes procedimentos:

    • Selecione Add new (Adicionar novo) e preencha o formulário Add trigger (Adicionar gatilho). Em seguida, escolha Adicionar.

      O gatilho é exibido no gráfico. Você concluirá o gatilho em uma etapa posterior.

    • Selecione Clone existing (Clonar existente), e escolha um gatilho para ser clonado. Em seguida, escolha Adicionar.

      O gatilho é exibido no gráfico com as tarefas e os crawlers que ele monitora e as tarefas e os crawlers que ele inicia.

      Se você escolheu o gatilho errado por engano, selecione-o no gráfico e selecione Remove (Remover).

  3. Se você adicionou um novo gatilho, execute estas etapas:

    1. Selecione o novo gatilho.

      Como mostra o gráfico a seguir, o acionador De-dupe/fix succeeded está selecionado, e os nós de espaço reservado aparecem para (q) evento a ser monitorado e (2) ações.

      Um gráfico com vários nós, dois dos quais são nós de espaço reservados destacados como números 1 e 2.
    2. (Opcional caso o gatilho já esteja monitorando um evento e você queira adicionar mais tarefas ou crawlers para serem monitorados.) Escolha o nó de espaço reservado de eventos a serem monitorados e, na caixa de diálogo Add job(s) and crawler(s) to watch (Adicionar tarefas e crawlers a serem monitorados), selecione uma ou mais tarefas ou crawlers. Escolha um evento a ser monitorado (BEM-SUCEDIDO, COM FALHA, etc.) e selecione Add (Adicionar).

    3. Certifique-se de que o gatilho esteja selecionado e escolha o nó de espaço reservado de ações.

    4. Na caixa de diálogo Add job(s) and crawler(s) to watch (Adicionar tarefas e crawlers a serem monitorados), selecione uma ou mais tarefas e crawlers e selecione Add (Adicionar).

      As tarefas e os crawlers selecionados são exibidos no gráfico com conectores do gatilho.

Para obter mais informações sobre fluxos de trabalho e esquemas, consulte os tópicos a seguir.