O que é AWS Data Pipeline? - AWS Data Pipeline

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que é AWS Data Pipeline?

nota

AWS Data Pipeline o serviço está em modo de manutenção e nenhum novo recurso ou expansão de região está planejado. Para saber mais e descobrir como migrar os workloads existentes, consulte Migrando cargas de trabalho do AWS Data Pipeline.

AWS Data Pipeline é um serviço web que você pode usar para automatizar a movimentação e a transformação de dados. Com AWS Data Pipeline, você pode definir fluxos de trabalho orientados por dados, para que as tarefas possam depender da conclusão bem-sucedida das tarefas anteriores. Você define os parâmetros de suas transformações de dados e AWS Data Pipeline aplica a lógica que você configurou.

Os seguintes componentes do AWS Data Pipeline trabalho em conjunto para gerenciar seus dados:

  • Uma definição de pipeline especifica a lógica de negócios do seu gerenciamento de dados. Para ter mais informações, consulte Sintaxe do arquivo de definição do pipeline.

  • Um pipeline programa e executa tarefas por meio da criação de instâncias do Amazon EC2 para realizar atividades de trabalho definidas. Você faz upload da sua definição de pipeline no pipeline e, em seguida, o ativa. Você pode editar a definição de pipeline para um pipeline em execução e ativá-lo novamente para que essa definição entre em vigor. Você pode desativar o pipeline, modificar uma fonte de dados e, em seguida, ativar o pipeline novamente. Quando não precisar mais do pipeline, você poderá excluí-lo.

  • O Task Runner pesquisará tarefas e as executará. Por exemplo, o Task Runner pode copiar arquivos de log para o Amazon S3 e iniciar clusters do Amazon EMR. O Task Runner é instalado e executado automaticamente nos recursos criados pelas suas definições de pipeline. Você pode escrever um aplicativo de execução de tarefas personalizado ou usar o aplicativo Executor de Tarefas fornecido pela. AWS Data Pipeline Para ter mais informações, consulte Executores de tarefas.

Por exemplo, você pode usar AWS Data Pipeline para arquivar os registros do seu servidor web no Amazon Simple Storage Service (Amazon S3) todos os dias e, em seguida, executar um cluster semanal do Amazon EMR (Amazon EMR) sobre esses registros para gerar relatórios de tráfego. AWS Data Pipeline programa as tarefas diárias para copiar dados e a tarefa semanal para iniciar o cluster do Amazon EMR. AWS Data Pipeline também garante que o Amazon EMR aguarde o upload dos dados do último dia para o Amazon S3 antes de iniciar sua análise, mesmo que haja um atraso imprevisto no upload dos registros.

AWS Data Pipeline visão geral funcional

Acessando AWS Data Pipeline

Você pode criar, acessar e gerenciar seus pipelines usando qualquer uma das seguintes interfaces:

  • AWS Management Console — Fornece uma interface web que você pode usar para acessar o AWS Data Pipeline.

  • AWS Command Line Interface (AWS CLI) — Fornece comandos para um amplo conjunto de serviços da AWS, inclusive AWS Data Pipeline, e é compatível com Windows, macOS e Linux. Para obter mais informações sobre a instalação do AWS CLI, consulte AWS Command Line Interface. Para obter uma lista de comandos para AWS Data Pipeline, consulte datapipeline.

  • AWS SDKs: fornecem APIs específicas da linguagem e cuidam de muitos dos detalhes da conexão, como cálculo de assinaturas, tratamento de novas tentativas de solicitação e tratamento de erros. Para mais informações, consulte SDKs da AWS.

  • API de consulta — Fornece APIs de baixo nível que você chama usando solicitações HTTPS. Usar a API de consulta é a maneira mais direta para acessar a AWS Data Pipeline, mas exige que seu aplicativo lide com detalhes de baixo nível, como a geração de hash para assinar a solicitação e manuseio de erros. Para obter mais informações, consulte a Referência da API do AWS Data Pipeline.

Definição de preço

Com o Amazon Web Services, você paga somente pelo que usar. Pois AWS Data Pipeline, você paga pelo seu funil com base na frequência com que suas atividades e condições prévias estão programadas para serem executadas e onde elas são executadas. Para obter mais informações, consulte Preços do AWS Data Pipeline.

Se sua conta da AWS tiver menos de 12 meses, você poderá usar o nível gratuito. O nível gratuito inclui três precondições e cinco atividades mensais, ambas de baixa frequência, sem qualquer custo. Para obter mais informações, consulte AWS Free Tier (Nível gratuito da AWS).