As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Migre cargas de trabalho do AWS Data Pipeline Amazon MWAA
AWS lançou o AWS Data Pipeline serviço em 2012. Naquela época, os clientes queriam um serviço que lhes permitisse usar uma variedade de opções de computação para mover dados entre diferentes fontes de dados. À medida que as necessidades de transferência de dados mudaram com o tempo, as soluções para essas necessidades também mudaram. Agora você tem a opção de escolher a solução que melhor atenda às suas necessidades comerciais. Você pode migrar suas cargas de trabalho para qualquer um dos seguintes serviços: AWS
-
Use o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para gerenciar a orquestração do fluxo de trabalho do Apache Airflow.
-
Use o Step Functions para orquestrar fluxos de trabalho entre vários Serviços da AWS.
-
Use AWS Glue para executar e orquestrar aplicativos Apache Spark.
A opção escolhida depende de sua workload atual em AWS Data Pipeline. Este tópico explica como migrar do AWS Data Pipeline Amazon MWAA.
Tópicos
Escolher o Amazon MWAA
O Amazon Managed Workflows for Apache Airflow (Amazon MWAA) é um serviço gerenciado de orquestração para o Apache Airflow que permite configurar e operar pipelines de dados na nuvem em grande escala. end-to-end O Apache Airflow
A seguir, destacamos alguns dos benefícios de AWS Data Pipeline migrar do Amazon MWAA:
-
Escalabilidade e desempenho aprimorados: o Amazon MWAA fornece uma estrutura flexível e escalável para definir e executar fluxos de trabalho. Isso permite que os usuários lidem com fluxos de trabalho grandes e complexos com facilidade e aproveitem atributos como agendamento dinâmico de tarefas, fluxos de trabalho orientados por dados e paralelismo.
-
Monitoramento e registro aprimorados — O Amazon MWAA se integra CloudWatch à Amazon para aprimorar o monitoramento e o registro de seus fluxos de trabalho. O Amazon MWAA envia automaticamente métricas e registros do sistema para o. CloudWatch Isso significa que é possível acompanhar o progresso e o desempenho de seus fluxos de trabalho em tempo real e identificar quaisquer problemas que surjam.
-
Melhores integrações com AWS serviços e software de terceiros — O Amazon MWAA se integra a uma variedade de outros AWS serviços, como Amazon S3 e AWS Glue Amazon Redshift, além de softwares de terceiros, como DBT, Snowflake e Databricks.
Isso permite que você processe e transfira dados em diferentes ambientes e serviços. -
Ferramenta de pipeline de dados de código aberto: o Amazon MWAA utiliza o mesmo produto de código aberto do Apache Airflow com o qual você está familiarizado. O Apache Airflow é uma ferramenta desenvolvida especificamente para lidar com todos os aspectos do gerenciamento do pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade, verificações de qualidade e garantia da linhagem de dados.
-
Arquitetura moderna e flexível: o Amazon MWAA aproveita a conteinerização e as tecnologias nativas de nuvem e tecnologias sem servidor. Isso significa mais flexibilidade e portabilidade, além de facilitar a implantação e o gerenciamento de seus ambientes de fluxo de trabalho.
Arquitetura e mapeamento de conceitos
AWS Data Pipeline e o Amazon MWAA têm arquiteturas e componentes diferentes, que podem afetar o processo de migração e a forma como os fluxos de trabalho são definidos e executados. Esta seção apresenta uma visão geral da arquitetura e dos componentes de ambos os serviços e destaca algumas das principais diferenças.
Ambos AWS Data Pipeline e o Amazon MWAA são serviços totalmente gerenciados. Ao migrar suas workloads para o Amazon MWAA, talvez seja necessário aprender novos conceitos para modelar seus fluxos de trabalho existentes usando o Apache Airflow. No entanto, você não precisará gerenciar a infraestrutura, corrigir os operadores e gerenciar as atualizações do sistema operacional.
A tabela a seguir associa os principais conceitos AWS Data Pipeline aos do Amazon MWAA. Use essas informações como ponto de partida para criar um plano de migração.
Conceito | AWS Data Pipeline | Amazon MWAA |
---|---|---|
Definição de pipeline | AWS Data Pipeline usa o arquivo de configuração baseado em JSON que define o fluxo de trabalho. | O Amazon MWAA usa gráficos acíclicos direcionados () baseados em Python que definem o fluxo |
Ambiente de execução do pipeline | Os fluxos de trabalho são executados em EC2 instâncias da Amazon. AWS Data Pipeline provisiona e gerencia essas instâncias em seu nome. | O Amazon MWAA usa ambientes em contêineres do Amazon ECS para executar tarefas. |
Componentes do pipeline | As atividades são tarefas de processamento que são executadas como parte do fluxo de trabalho. | Os operadores |
Precondições contêm instruções condicionais que precisam ser verdadeiras para que uma atividade possa ser executada. | Os sensores |
|
Um recurso em AWS Data Pipeline se refere ao recurso AWS computacional que executa o trabalho que uma atividade de pipeline especifica. Amazon EC2 e Amazon EMR são dois recursos disponíveis. | Ao usar tarefas em um DAG, é possível definir uma variedade de atributos computacionais, incluindo Amazon ECS, Amazon EMR e Amazon EKS. O Amazon MWAA executa operações de Python em operadores que são executados no Amazon ECS. | |
Execução do pipeline | AWS Data Pipeline suporta execuções de agendamento com padrões regulares baseados em taxas e cron. | O Amazon MWAA é compatível ao agendamento com expressões cron |
Uma instância se refere a cada execução do pipeline. | Uma execução do DAG |
|
Uma tentativa se refere a uma nova tentativa de uma operação com falha. | O Amazon MWAA é compatível a novas tentativas que você define no nível do DAG ou no nível da tarefa. |
Exemplos de implementações
Em muitos casos, você poderá reutilizar os recursos com os quais está orquestrando atualmente AWS Data Pipeline após a migração para o Amazon MWAA. A lista a seguir contém exemplos de implementações usando o Amazon MWAA para os casos de uso mais comuns. AWS Data Pipeline
-
Criação de um plug-in personalizado para Apache Hive e Hadoop (Guia do usuário do Amazon MWAA)
-
Copiar dados do S3 para o Redshift
AWS (workshop) -
Executar um script de shell em uma instância remota do Amazon ECS (Guia do usuário do Amazon MWAA)
-
Orquestração de fluxos de trabalho híbridos (locais) (publicação no blog)
Para obter outros exemplos e tutoriais, consulte os seguintes:
Comparação de preços
AWS Data Pipeline O preço do é baseado no número de pipelines, bem como no quanto você usa cada pipeline. As atividades que você executa mais de uma vez por dia (alta frequência) custam 1 dólar por mês por atividade. As atividades que você executa uma vez por dia ou menos (alta frequência) custam 0,60 dólar por mês por atividade. Os pipelines inativos custam 1 dólar por pipeline. Para obter mais informações, consulte a página de definição de preços do AWS Data Pipeline
O preço do Amazon MWAA é baseado no tempo de existência do seu ambiente do Apache Airflow gerenciado e em qualquer ajuste de escala automático adicional necessário para fornecer mais capacidade de operadores ou agendador. Você paga pelo uso do ambiente do Amazon MWAA por hora (cobrado com resolução de um segundo), com taxas variáveis dependendo do tamanho do ambiente. O Amazon MWAA faz o ajuste de escala automático do número de operadores com base na configuração do seu ambiente. AWS calcula o custo de operadores adicionais separadamente. Para obter mais informações sobre o custo por hora do uso de vários tamanhos de ambiente do Amazon MWAA, consulte a página de preços do Amazon MWAA
Recursos relacionados
Para obter mais informações e melhores práticas para usar o Amazon MWAA, consulte os seguintes recursos: