Conceitos básicos do AWS Data Pipeline - AWS Data Pipeline

Conceitos básicos do AWS Data Pipeline

O AWS Data Pipeline ajuda você a sequenciar, programar, executar e gerenciar cargas de trabalho de processamento de dados recorrentes de forma confiável e econômica. Este serviço facilita o desenvolvimento de atividades de extração, transformação e carregamento (ETL) usando dados estruturados e não estruturados, tanto no local como na nuvem, com base na sua lógica de negócios.

Para usar o AWS Data Pipeline, basta criar uma definição de pipeline que especifique a lógica de negócios do processamento dos seus dados. Uma definição típica de pipeline consiste em atividades que definem o trabalho a ser realizado e os nós de dados que definem o local e o tipo de dados de entrada e saída.

Neste tutorial, você executará um script de comando shell que conta o número de solicitações GET nos logs do servidor web Apache. Este pipeline é executado a cada 15 minutos por uma hora e grava a saída no Amazon S3 em todas as iterações.

Pré-requisitos

Antes de começar, conclua as tarefas em Configuração do AWS Data Pipeline.

Objetos de pipeline

O pipeline usa os seguintes objetos:

ShellCommandActivity

Lê o arquivo de log de entrada e conta o número de erros.

S3DataNode (entrada)

O bucket do S3 que contém o arquivo de log de entrada.

S3DataNode (saída)

O bucket do S3 para saída.

Ec2Resource

O recurso de computação que o AWS Data Pipeline usa para executar a atividade.

Se você tiver uma grande quantidade de dados do arquivo de log, poderá configurar seu pipeline para usar um cluster do EMR para processar os arquivos em vez de uma instância do EC2.

Schedule

Define que a atividade é realizada a cada 15 minutos e dura uma hora.

Criar o pipeline

A maneira mais rápida de começar a usar o AWS Data Pipeline é por meio de uma definição de pipeline chamada de modelo.

Para criar o pipeline
  1. Abra o console do AWS Data Pipeline em https://console.aws.amazon.com/datapipeline/.

  2. Na barra de navegação, selecione uma região. Selecione qualquer região que estiver disponível para você, independentemente do seu local. Muitos recursos da AWS são específicos de uma região, mas o AWS Data Pipeline permite que você use os recursos de regiões diferentes da região do pipeline.

  3. A primeira tela que você vê dependerá de você ter criado ou não um pipeline na região atual.

    1. Se ainda não tiver criado um pipeline nessa região, o console exibe uma tela introdutória. Selecione Get started now.

    2. Se você já criou um pipeline nessa região, o console exibirá uma página que lista seus pipelines para a região. Escolha Create new pipeline (Criar um novo pipeline).

  4. Em Nome, insira um nome para seu pipeline.

  5. (Opcional) Em Descrição, insira uma descrição para seu pipeline.

  6. Em Source, selecione Build using a template e, em seguida, o modelo Getting Started using ShellCommandActivity.

  7. Na seção Parameters, que abriu quando você selecionou o modelo, deixe S3 input folder e Shell command to run com seus respectivos valores padrão. Clique no ícone de pasta ao lado de S3 output folder, selecione um dos seus buckets ou pastas e, em seguida, clique em Select.

  8. Em Schedule, deixe os valores padrão. Quando você ativa o pipeline, ele é iniciado e continua sendo executado a cada 15 minutos durante uma hora.

    Se preferir, você pode selecionar Run once on pipeline activation.

  9. Em Configuração do pipeline, deixe o registro de log ativado. Escolha o ícone da pasta na localização do S3 para registros, selecione um dos seus buckets ou pastas e, em seguida, escolha Selecionar.

    Se preferir, você poderá desabilitar o registro de log.

  10. Em Segurança/acesso, mantenha a seleção perfil do IAM como Padrão.

  11. Clique em Activate.

    Se preferir, você pode selecionar Editar no Architect para modificar esse pipeline. Por exemplo, você pode adicionar pré-condições.

Monitorar o pipeline em execução

Após ativar o pipeline, você será levado à página Execution details na qual poderá monitorar o progresso do pipeline.

Para monitorar o progresso do seu pipeline
  1. Clique em Update ou pressione F5 para atualizar o status exibido.

    dica

    Se não houver execuções listadas, certifique-se que as opções Start (in UTC) e End (in UTC) abrangem o início e o término programado do pipeline. Em seguida, clique em Update.

  2. Quando o status de cada objeto no pipeline for FINISHED, o pipeline concluiu com êxito as tarefas programadas.

  3. Se o pipeline não for concluído com êxito, verifique se há algum problema nas configurações do pipeline. Para obter mais informações sobre a solução de problemas de execuções de instâncias com falha ou incompletas do pipeline, consulte Resolver problemas comuns.

Visualizar a saída

Abra o console do Amazon S3 e navegue até seu bucket. Se você executou seu pipeline a cada 15 minutos durante uma hora, verá quatro subpastas com os horários registrados. Cada subpasta contém a saída em um arquivo chamado output.txt. Como executamos o script no mesmo arquivo de entrada todas as vezes, os arquivos de saída serão idênticos.

Excluir o pipeline

Para parar de incorrer em cobranças, exclua seu pipeline. A exclusão do pipeline exclui a definição do pipeline e todos os objetos associados.

Para excluir seu pipeline
  1. Na página Listar Pipelines, selecione o pipeline.

  2. Clique em Ações e selecione Excluir.

  3. Quando a confirmação for solicitada, escolha Delete (Excluir).

Se você já concluiu este tutorial, exclua as pastas de saída do seu bucket do Amazon S3.