AWS Data Pipeline
Guia do desenvolvedor (Versão da API 2012-10-29)

O que é AWS Data Pipeline?

O AWS Data Pipeline é um serviço web que você pode usar para automatizar a movimentação e a transformação de dados. Com o AWS Data Pipeline, você pode definir fluxos de trabalho dirigidos por dados para que as tarefas possam ser dependentes da conclusão bem-sucedida das tarefas anteriores. Você define os parâmetros das transformações dos seus dados, e o AWS Data Pipeline impõe a lógica configurada.

Os seguintes componentes do AWS Data Pipeline trabalham em conjunto para gerenciar seus dados:

  • Uma definição de pipeline especifica a lógica de negócios do seu gerenciamento de dados. Para obter mais informações, consulte Sintaxe do arquivo de definição do pipeline.

  • Um pipeline programa e executa tarefas por meio da criação de instâncias do Amazon EC2 para realizar atividades de trabalho definidas. Você faz upload da sua definição de pipeline no pipeline e, em seguida, o ativa. Você pode editar a definição de pipeline para um pipeline em execução e ativá-lo novamente para que essa definição entre em vigor. Você pode desativar o pipeline, modificar uma fonte de dados e, em seguida, ativar o pipeline novamente. Quando não precisar mais do pipeline, você poderá excluí-lo.

  • O Task Runner pesquisará tarefas e as executará. Por exemplo, o Task Runner pode copiar arquivos de log para o Amazon S3 e iniciar clusters do Amazon EMR. O Task Runner é instalado e executado automaticamente nos recursos criados por suas definições de pipeline. Você pode escrever um aplicativo executor de tarefa personalizado ou usar o aplicativo Task Runner fornecido pelo AWS Data Pipeline. Para obter mais informações, consulte Executores de tarefas.

Por exemplo, você pode usar o AWS Data Pipeline para arquivar diariamente os logs do seu servidor web no Amazon Simple Storage Service (Amazon S3) e executar semanalmente um cluster do Amazon EMR (Amazon EMR) nesses logs para gerar relatórios de tráfego. O AWS Data Pipeline programa as tarefas diárias para copiar dados e a tarefa semanal para iniciar o cluster do Amazon EMR. O AWS Data Pipeline também garante que o Amazon EMR aguarde até que os dados finais do dia sejam enviados para o Amazon S3 para começar a análise, mesmo que haja um atraso imprevisto no upload dos logs.


            Visão geral das funções do AWS Data Pipeline

Como acessar o AWS Data Pipeline

Você pode criar, acessar e gerenciar seus pipelines usando qualquer uma das seguintes interfaces:

  • Console de gerenciamento da AWS — Fornece uma interface web que você pode usar para acessar o AWS Data Pipeline.

  • AWS Command Line Interface (AWS CLI) — Fornece comandos para um amplo conjunto de serviços da AWS, incluindo AWS Data Pipeline, e é compatível com Windows, macOS e Linux/Unix. Para obter mais informações sobre como instalar a AWS CLI, consulte AWS Command Line Interface. Para obter uma lista de comandos do AWS Data Pipeline, consulte datapipeline.

  • SDKs da AWS — Fornece APIs específicas para a linguagem e cuida de muitos dos detalhes de conexão, como calcular assinaturas, lidar com novas tentativas de solicitação e manusear erros. Para obter mais informações, consulte AWS SDKs.

  • API de consulta — Fornece APIs de baixo nível que você chama usando solicitações HTTPS. Usar a API de consulta é a maneira mais direta para acessar o AWS Data Pipeline, mas exige que seu aplicativo lide com detalhes de baixo nível, como a geração de hash para assinar a solicitação e manuseio de erros. Para mais informações, consulte o AWS Data Pipeline API Reference.

Definição de preço

Com o Amazon Web Services, você paga somente pelo que for usado. No AWS Data Pipeline, você paga pelo pipeline com base na frequência com que suas atividades e precondições estão programas para execução e no local onde elas serão executadas. Para obter mais informações, consulte a Definição de preço do AWS Data Pipeline.

Se sua conta da AWS tiver menos de 12 meses, você poderá usar o nível gratuito. O nível gratuito inclui três precondições e cinco atividades mensais, ambas de baixa frequência, sem qualquer custo. Para obter mais informações, consulte Nível gratuito da AWS.