O que é o AWS Data Pipeline? - AWS Data Pipeline

O que é o AWS Data Pipeline?

nota

O serviço AWS Data Pipeline está em modo de manutenção e nenhum novo recurso ou expansão de região foi planejado. Para saber mais e descobrir como migrar os workloads existentes, consulte Migração de workloads do AWS Data Pipeline.

O AWS Data Pipeline é um serviço web que você pode usar para automatizar a movimentação e a transformação de dados. Com o AWS Data Pipeline, você pode definir fluxos de trabalho dirigidos por dados para que as tarefas possam ser dependentes da conclusão bem-sucedida das tarefas anteriores. Você define os parâmetros das transformações dos seus dados, e o AWS Data Pipeline impõe a lógica configurada.

Os seguintes componentes do AWS Data Pipeline trabalham em conjunto para gerenciar seus dados:

  • Uma definição de pipeline especifica a lógica de negócios do seu gerenciamento de dados. Para obter mais informações, consulte Sintaxe do arquivo de definição do pipeline.

  • Um pipeline programa e executa tarefas por meio da criação de instâncias do Amazon EC2 para realizar atividades de trabalho definidas. Você faz upload da sua definição de pipeline no pipeline e, em seguida, o ativa. Você pode editar a definição de pipeline para um pipeline em execução e ativá-lo novamente para que essa definição entre em vigor. Você pode desativar o pipeline, modificar uma fonte de dados e, em seguida, ativar o pipeline novamente. Quando não precisar mais do pipeline, você poderá excluí-lo.

  • O Task Runner pesquisará tarefas e as executará. Por exemplo, o Task Runner pode copiar arquivos de log para o Amazon S3 e iniciar clusters do Amazon EMR. O Task Runner é instalado e executado automaticamente nos recursos criados pelas suas definições de pipeline. Você pode escrever um aplicativo executor de tarefa personalizado ou usar o aplicativo Task Runner fornecido pelo AWS Data Pipeline. Para obter mais informações, consulte Executores de tarefas.

Por exemplo, você pode usar o AWS Data Pipeline para arquivar diariamente os logs do seu servidor web no Amazon Simple Storage Service (Amazon S3) e executar semanalmente um cluster do Amazon EMR (Amazon EMR) nesses logs para gerar relatórios de tráfego. O AWS Data Pipeline programa as tarefas diárias para copiar dados e a tarefa semanal para iniciar o cluster do Amazon EMR. O AWS Data Pipeline também garante que o Amazon EMR aguarde até que os dados finais do dia sejam enviados para o Amazon S3 para começar a análise, mesmo que haja um atraso imprevisto no upload dos logs.


            Visão geral das funções do AWS Data Pipeline

Como acessar o AWS Data Pipeline

Você pode criar, acessar e gerenciar seus pipelines usando qualquer uma das seguintes interfaces:

  • AWS Management Console — Fornece uma interface web que você pode usar para acessar o AWS Data Pipeline.

  • AWS Command Line Interface (AWS CLI) — Fornece comandos para um amplo conjunto de serviços da AWS, incluindo a AWS Data Pipeline e é compatível com o Windows, o macOS e o Linux. Para obter mais informações sobre como instalar a AWS CLI, consulte AWS Command Line Interface. Para obter uma lista de comandos do AWS Data Pipeline, consulte datapipeline.

  • AWS SDKs: fornecem APIs específicas da linguagem e cuidam de muitos dos detalhes da conexão, como cálculo de assinaturas, tratamento de novas tentativas de solicitação e tratamento de erros. Para mais informações, consulte AWS SDKs.

  • API de consulta — Fornece APIs de baixo nível que você chama usando solicitações HTTPS. Usar a API de consulta é a maneira mais direta para acessar a AWS Data Pipeline, mas exige que seu aplicativo lide com detalhes de baixo nível, como a geração de hash para assinar a solicitação e manuseio de erros. Para obter mais informações, consulte a Referência da API do AWS Data Pipeline.

Preços

Com o Amazon Web Services, você paga somente pelo que usar. No AWS Data Pipeline, você paga pelo pipeline com base na frequência com que suas atividades e precondições estão programas para execução e no local onde elas serão executadas. Para obter mais informações, consulte Preços do AWS Data Pipeline.

Se sua conta da AWS tiver menos de 12 meses, você poderá usar o nível gratuito. O nível gratuito inclui três precondições e cinco atividades mensais, ambas de baixa frequência, sem qualquer custo. Para obter mais informações, consulte AWS Free Tier (Nível gratuito da AWS).