Migre las cargas de trabajo desde Amazon AWS Data Pipeline MWAA - Amazon Managed Workflows para Apache Airflow

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Migre las cargas de trabajo desde Amazon AWS Data Pipeline MWAA

AWS lanzó el AWS Data Pipeline servicio en 2012. En ese momento, los clientes necesitaban un servicio que les permitiera usar distintas opciones informáticas para mover datos entre diferentes orígenes de datos. A medida que las necesidades de transferencia de datos cambiaban con el tiempo, también lo han hecho las soluciones para esas necesidades. Ahora tiene la opción de elegir la solución que mejor se adapte a sus requisitos empresariales. Puede migrar sus cargas de trabajo a cualquiera de los siguientes AWS servicios:

  • Usar Amazon Managed Workflows para Apache Airflow (Amazon MWAA) para gestionar la orquestación de flujos de trabajo de Apache Airflow.

  • Use Step Functions para organizar flujos de trabajo entre varios Servicios de AWS.

  • Úselo AWS Glue para ejecutar y organizar las aplicaciones de Apache Spark.

La opción que elija depende de su carga de trabajo actual en AWS Data Pipeline. En este tema se explica cómo migrar de Amazon MWAA AWS Data Pipeline a Amazon.

Elección de Amazon MWAA

Amazon Managed Workflows for Apache Airflow (Amazon MWAA) es un servicio de organización gestionado para Apache Airflow que le permite configurar y operar canalizaciones de end-to-end datos en la nube a escala. Apache Airflow es una herramienta de código abierto que se utiliza para crear, programar y supervisar secuencias de procesos y tareas denominadas flujos de trabajo mediante programación. Con Amazon MWAA, puede usar el lenguaje de programación Airflow y Python para crear flujos de trabajo sin tener que administrar la infraestructura subyacente para garantizar la escalabilidad, la disponibilidad y la seguridad. Amazon MWAA escala automáticamente la capacidad de su flujo de trabajo para satisfacer sus necesidades y está integrado con los servicios de AWS seguridad para ayudarle a proporcionarle un acceso rápido y seguro a sus datos.

A continuación, se destacan algunos de los beneficios de AWS Data Pipeline migrar desde Amazon MWAA:

  • Escalabilidad y rendimiento mejorados: Amazon MWAA ofrece un marco flexible y escalable para definir y ejecutar flujos de trabajo. Esto permite a los usuarios gestionar flujos de trabajo grandes y complejos con facilidad y sacar partido a características como la programación dinámica de tareas, los flujos de trabajo basados en datos y el paralelismo.

  • Supervisión y registro mejorados: Amazon MWAA se integra con Amazon CloudWatch para mejorar la supervisión y el registro de sus flujos de trabajo. Amazon MWAA envía automáticamente las métricas y los registros del sistema a. CloudWatch Esto significa que puede realizar un seguimiento del progreso y el rendimiento de los flujos de trabajo en tiempo real e identificar cualquier problema que surja.

  • Mejores integraciones con AWS servicios y software de terceros : Amazon MWAA se integra con una variedad de otros AWS servicios, como Amazon S3 y Amazon Redshift AWS Glue, así como con software de terceros, como DBT, Snowflake y Databricks. Esto permite procesar y transferir datos entre distintos entornos y servicios.

  • Herramienta de canalización de datos de código abierto: Amazon MWAA utiliza el mismo producto Apache Airflow de código abierto con el que está familiarizado. Apache Airflow es una herramienta diseñada especialmente para gestionar todos los aspectos de la gestión de la canalización de datos, incluida la incorporación, el procesamiento, la transferencia, las pruebas de integridad y los controles de calidad, además de garantizar el linaje de los datos.

  • Arquitectura moderna y flexible: Amazon MWAA utiliza la organización en contenedores y las tecnologías sin servidor nativas en la nube. Esto se traduce en una mayor flexibilidad y portabilidad, así como en una implementación y administración más sencillas de los entornos de flujo de trabajo.

Mapeo conceptual y de arquitectura

AWS Data Pipeline y Amazon MWAA tienen arquitecturas y componentes diferentes, lo que puede afectar al proceso de migración y a la forma en que se definen y ejecutan los flujos de trabajo. En esta sección se expone una descripción general de la arquitectura y los componentes de ambos servicios y se destacan algunas de las diferencias principales.

AWS Data Pipeline Tanto Amazon MWAA como Amazon son servicios totalmente gestionados. Cuando migre sus cargas de trabajo a Amazon MWAA, es posible que tenga que aprender nuevos conceptos para modelar sus flujos de trabajo existentes con Apache Airflow. Sin embargo, no tendrá que administrar la infraestructura, parchear a los procesos de trabajo ni administrar las actualizaciones del sistema operativo.

La siguiente tabla asocia los conceptos clave AWS Data Pipeline con los de Amazon MWAA. Utilice esta información como punto de partida para diseñar un plan de migración.

Concepto AWS Data Pipeline Amazon MWAA
Definición de la canalización AWS Data Pipeline utiliza un archivo de configuración basado en JSON que define el flujo de trabajo. Amazon MWAA utiliza gráficos acíclicos dirigidos () DAGs basados en Python que definen el flujo de trabajo.
Entorno de ejecución de canalizaciones Los flujos de trabajo se ejecutan en EC2 instancias de Amazon. AWS Data Pipeline aprovisiona y gestiona estas instancias en tu nombre. Amazon MWAA utiliza entornos organizados en contenedores de Amazon ECS para ejecutar tareas.
Componentes de canalización Las actividades son tareas de procesamiento que se ejecutan como parte del flujo de trabajo. Los operadores (tareas) son las unidades de procesamiento fundamentales de un flujo de trabajo.
Las precondiciones contienen instrucciones condicionales que deben cumplirse antes de que una actividad pueda ejecutarse. Los sensores (tareas) son instrucciones condicionales que pueden esperar a que se complete un recurso o una tarea antes de ejecutarse.
Un recurso en AWS Data Pipeline se refiere al recurso AWS informático que realiza el trabajo que especifica una actividad de canalización. Amazon EC2 y Amazon EMR son dos recursos disponibles. Con las tareas de un DAG, puede definir distintos recursos informáticos, incluidos Amazon ECS, Amazon EMR y Amazon EKS. Amazon MWAA ejecuta operaciones de Python en procesos de trabajo que se ejecutan en Amazon ECS.
Ejecución de canalizaciones AWS Data Pipeline permite programar las ejecuciones con patrones regulares basados en tasas y cronos. Amazon MWAA admite la programación con expresiones cron y ajustes preestablecidos, así como con horarios personalizados.
Una instancia hacer referencia a cada ejecución de la canalización. Una ejecución de DAG hace referencia a cada ejecución de un flujo de trabajo de Apache Airflow.
Un intento se refiere a un reintento de una operación que ha dado error. Amazon MWAA admite los reintentos que usted defina a nivel de DAG o a nivel de tarea.

Despliegue de ejemplo

En muchos casos, podrá reutilizar los recursos con los que está gestionando actualmente AWS Data Pipeline tras migrar a Amazon MWAA. La siguiente lista contiene ejemplos de implementaciones que utilizan Amazon MWAA para los casos de uso más comunes. AWS Data Pipeline

Para ver ejemplos, consulte los siguientes tutoriales:

Comparación de precios

El precio AWS Data Pipeline se basa en la cantidad de canalizaciones, así como en el uso de cada canalización. Las actividades que lleve a cabo más de una vez al día (frecuencia alta) cuestan 1 USD al mes por actividad. Las actividades que lleve a cabo una vez al día (frecuencia baja) cuestan 0.60 USD al mes por actividad. Las canalizaciones inactivas tienen un precio de 1 USD por canalización. Para obtener más información, consulte la página de precios de AWS Data Pipeline.

Los precios de Amazon MWAA se basan en el tiempo durante el que exista su entorno administrado de Apache Airflow y en cualquier escalado automático adicional necesario para proporcionar más procesos de trabajo o aumentar la capacidad de programadores. El uso del entorno de Amazon MWAA se paga por hora (se factura con una resolución de un segundo) y las tarifas varían en función del tamaño del entorno. Amazon MWAA escala automáticamente el número de procesos de trabajo en función de la configuración del entorno. AWS calcula el coste de los procesos de trabajo adicionales por separado. Para obtener más información sobre el coste por hora de utilizar entornos de Amazon MWAA de distintos tamaños, consulte la página de precios de Amazon MWAA.

Recursos relacionados

Para obtener más información y descubrir prácticas recomendadas para usar Amazon MWAA, consulte los siguientes recursos: