O que é o AWS Data Pipeline?
nota
O serviço AWS Data Pipeline está em modo de manutenção e nenhum novo recurso ou expansão de região foi planejado. Para saber mais e descobrir como migrar os workloads existentes, consulte Migração de workloads do AWS Data Pipeline.
O AWS Data Pipeline é um serviço web que você pode usar para automatizar a movimentação e a transformação de dados. Com o AWS Data Pipeline, você pode definir fluxos de trabalho dirigidos por dados para que as tarefas possam ser dependentes da conclusão bem-sucedida das tarefas anteriores. Você define os parâmetros das transformações dos seus dados, e o AWS Data Pipeline impõe a lógica configurada.
Os seguintes componentes do AWS Data Pipeline trabalham em conjunto para gerenciar seus dados:
-
Uma definição de pipeline especifica a lógica de negócios do seu gerenciamento de dados. Para obter mais informações, consulte Sintaxe do arquivo de definição do pipeline.
-
Um pipeline programa e executa tarefas por meio da criação de instâncias do Amazon EC2 para realizar atividades de trabalho definidas. Você faz upload da sua definição de pipeline no pipeline e, em seguida, o ativa. Você pode editar a definição de pipeline para um pipeline em execução e ativá-lo novamente para que essa definição entre em vigor. Você pode desativar o pipeline, modificar uma fonte de dados e, em seguida, ativar o pipeline novamente. Quando não precisar mais do pipeline, você poderá excluí-lo.
-
O Task Runner pesquisará tarefas e as executará. Por exemplo, o Task Runner pode copiar arquivos de log para o Amazon S3 e iniciar clusters do Amazon EMR. O Task Runner é instalado e executado automaticamente nos recursos criados pelas suas definições de pipeline. Você pode escrever um aplicativo executor de tarefa personalizado ou usar o aplicativo Task Runner fornecido pelo AWS Data Pipeline. Para obter mais informações, consulte Executores de tarefas.
Por exemplo, você pode usar o AWS Data Pipeline para arquivar diariamente os logs do seu servidor web no Amazon Simple Storage Service (Amazon S3) e executar semanalmente um cluster do Amazon EMR (Amazon EMR) nesses logs para gerar relatórios de tráfego. O AWS Data Pipeline programa as tarefas diárias para copiar dados e a tarefa semanal para iniciar o cluster do Amazon EMR. O AWS Data Pipeline também garante que o Amazon EMR aguarde até que os dados finais do dia sejam enviados para o Amazon S3 para começar a análise, mesmo que haja um atraso imprevisto no upload dos logs.
Índice
Como acessar o AWS Data Pipeline
Você pode criar, acessar e gerenciar seus pipelines usando qualquer uma das seguintes interfaces:
-
AWS Management Console — Fornece uma interface web que você pode usar para acessar o AWS Data Pipeline.
-
AWS Command Line Interface (AWS CLI) — Fornece comandos para um amplo conjunto de serviços da AWS, incluindo a AWS Data Pipeline e é compatível com o Windows, o macOS e o Linux. Para obter mais informações sobre como instalar a AWS CLI, consulte AWS Command Line Interface
. Para obter uma lista de comandos do AWS Data Pipeline, consulte datapipeline. -
AWS SDKs: fornecem APIs específicas da linguagem e cuidam de muitos dos detalhes da conexão, como cálculo de assinaturas, tratamento de novas tentativas de solicitação e tratamento de erros. Para mais informações, consulte AWS SDKs
. -
API de consulta — Fornece APIs de baixo nível que você chama usando solicitações HTTPS. Usar a API de consulta é a maneira mais direta para acessar a AWS Data Pipeline, mas exige que seu aplicativo lide com detalhes de baixo nível, como a geração de hash para assinar a solicitação e manuseio de erros. Para obter mais informações, consulte a Referência da API do AWS Data Pipeline.
Preços
Com o Amazon Web Services, você paga somente pelo que usar. No AWS Data Pipeline, você paga pelo pipeline com base na frequência com que suas atividades e precondições estão programas para execução e no local onde elas serão executadas. Para obter mais informações, consulte Preços do AWS Data Pipeline
Se sua conta da AWS tiver menos de 12 meses, você poderá usar o nível gratuito. O nível gratuito inclui três precondições e cinco atividades mensais, ambas de baixa frequência, sem qualquer custo. Para obter mais informações, consulte AWS Free Tier (Nível gratuito da AWS)