AWS Data Pipeline ya no está disponible para nuevos clientes. Clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información
Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Migración de cargas de trabajo desde AWS Data Pipeline
AWS lanzó el AWS Data Pipeline servicio en 2012. En ese momento, los clientes buscaban un servicio que les ayudara a transferir datos de forma fiable entre diferentes orígenes de datos mediante una variedad de opciones informáticas. Ahora hay otros servicios que ofrecen a los clientes una mejor experiencia de integración de datos. Por ejemplo, puede utilizar AWS Glue to para ejecutar y organizar las aplicaciones de Apache Spark, AWS Step Functions para ayudar a organizar los componentes del AWS servicio o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para gestionar la organización del flujo de trabajo de Apache Airflow.
En este tema se explica cómo migrar de opciones alternativas a otras. AWS Data Pipeline La opción que elija depende de su carga de trabajo actual en AWS Data Pipeline. Puede migrar los casos de uso típicos AWS Data Pipeline a AWS Step Functions o Amazon MWAA. AWS Glue
Migración de cargas de trabajo a AWS Glue
AWS Glue
Recomendamos migrar la AWS Data Pipeline carga de trabajo a una AWS Glue fecha en la que:
Está buscando un servicio de integración de datos sin servidor que admita diversos orígenes de datos, interfaces de creación que incluyan editores visuales y cuadernos, y funciones avanzadas de administración de datos, como la calidad de los datos y la detección de datos confidenciales.
Tu carga de trabajo se puede migrar a AWS Glue flujos de trabajo, trabajos (en Python o Apache Spark) y rastreadores (por ejemplo, tu canalización actual se basa en Apache Spark).
Necesita una plataforma única que pueda gestionar todos los aspectos de su canalización de datos, incluidos la ingesta, el procesamiento, la transferencia, las pruebas de integridad y los controles de calidad.
Su canalización existente se creó a partir de una plantilla predefinida en la AWS Data Pipeline consola, como la exportación de una tabla de DynamoDB a Amazon S3, y busca la misma plantilla con el mismo propósito.
Su carga de trabajo no depende de una aplicación específica del ecosistema de Hadoop, como Apache Hive.
Su carga de trabajo no requiere la orquestación de servidores en las instalaciones.
AWS cobra una tarifa por hora, que se factura por segundo, por los rastreadores (descubrimiento de datos) y los trabajos de ETL (procesamiento y carga de datos). AWS Glue Studio es un motor de organización de AWS Glue recursos integrado y se ofrece sin coste adicional. Para obtener más información sobre precios, consulte Precios de AWS Glue
Migración de cargas de trabajo a Step Functions AWS
AWS Step Functions
Del mismo modo AWS Data Pipeline, AWS Step Functions es un servicio totalmente gestionado proporcionado por AWS. No se le pedirá que gestione la infraestructura, parchee a los trabajadores, gestione las actualizaciones de la versión del sistema operativo o similares.
Recomendamos migrar la AWS Data Pipeline carga de trabajo a AWS Step Functions cuando:
Está buscando un servicio de orquestación de flujos de trabajo sin servidor y de alta disponibilidad.
Está buscando una solución rentable que cobre al mismo nivel que la ejecución de una sola tarea.
Sus cargas de trabajo organizan tareas para varios otros AWS servicios, como Amazon EMR, Lambda AWS Glue o DynamoDB.
Está buscando una solución con poco código que incluya un diseñador drag-and-drop visual para la creación de flujos de trabajo y que no requiera aprender nuevos conceptos de programación.
Está buscando un servicio que proporcione integraciones con más de 250 AWS servicios adicionales que abarquen más de 11 000 acciones out-of-the-box, además de permitir integraciones con actividades y no servicios personalizados.AWS
AWS Data Pipeline Tanto Step Functions como Step Functions utilizan el formato JSON para definir los flujos de trabajo. Esto permite almacenar sus flujos de trabajo en el control de código fuente, administrar las versiones, controlar el acceso y automatizarlos con CI/CD. Step Functions utiliza una sintaxis llamada Amazon State Language, que se basa completamente en JSON y permite una transición perfecta entre las representaciones textuales y visuales del flujo de trabajo.
Con Step Functions, puede elegir la misma versión de Amazon EMR que utiliza actualmente en AWS Data Pipeline.
Para migrar actividades en recursos AWS Data Pipeline gestionados, puedes usar la integración AWS del servicio SDK en Step Functions para automatizar el aprovisionamiento y la limpieza de los recursos.
Para migrar actividades en servidores en las instalaciones, instancias de EC2 administradas por el usuario o un clúster EMR administrado por el usuario, puede instalar un agente SSM en la instancia. Puede iniciar el comando mediante AWS Systems Manager Run Command de Step Functions. También puede iniciar la máquina de estados a partir de la programación definida en Amazon EventBridge
AWS Step Functions tiene dos tipos de flujos de trabajo: flujos de trabajo estándar y flujos de trabajo exprés. En el caso de los flujos de trabajo estándar, se le cobrará en función del número de transiciones de estado necesarias para ejecutar la aplicación. En el caso de los flujos de trabajo exprés, se le cobrará en función del número de solicitudes del flujo de trabajo y de su duración. Obtenga más información sobre los precios en Precios de AWS Step Functions
Migración de cargas de trabajo a Amazon MWAA
Amazon MWAA
Del mismo modo AWS Data Pipeline, Amazon MWAA son servicios totalmente gestionados proporcionados por. AWS Si bien necesita aprender varios conceptos nuevos específicos de estos servicios, no es necesario que administre la infraestructura, aplique parches a los trabajadores, administre las actualizaciones de las versiones del sistema operativo o algo similar.
Recomendamos migrar las AWS Data Pipeline cargas de trabajo a Amazon MWAA cuando:
Está buscando un servicio gestionado y de alta disponibilidad para orquestar flujos de trabajo escritos en Python.
Desea realizar la transición a una tecnología de código abierto totalmente gestionada y ampliamente adoptada, Apache Airflow, para lograr la máxima portabilidad.
Necesita una plataforma única que pueda gestionar todos los aspectos de su canalización de datos, incluidos la ingesta, el procesamiento, la transferencia, las pruebas de integridad y los controles de calidad.
Está buscando un servicio diseñado para orquestar la canalización de datos con funciones como una interfaz de usuario completa para facilitar la observabilidad, reinicios en caso de flujos de trabajo fallidos, recargas y reintentos de tareas.
Está buscando un servicio que incluya más de 800 operadores y sensores prediseñados, que abarquen AWS tanto los servicios como los que no sean de servicio.AWS
Los flujos de trabajo de Amazon MWAA se definen como gráficos acíclicos dirigidos (Directed Acyclic Graphs, DAG) que utilizan Python, por lo que también puede tratarlos como código fuente. El marco extensible de Python de Airflow le permite crear flujos de trabajo que se conecten con prácticamente cualquier tecnología. Viene con una interfaz de usuario completa para ver y monitorear los flujos de trabajo y se puede integrar fácilmente con los sistemas de control de versiones para automatizar el proceso de CI/CD.
Con Amazon MWAA, puede elegir la misma versión de Amazon EMR que utiliza actualmente en AWS Data Pipeline.
AWS cobra por el tiempo de funcionamiento de su entorno de Airflow más cualquier escalado automático adicional para proporcionar más capacidad de trabajadores o servidores web. Obtenga más información sobre los precios en Precios de Amazon Managed Workflows para Apache Airflow
Mapeo de conceptos
La siguiente tabla contiene un mapeo de los principales conceptos utilizados por los servicios. Ayudará a las personas familiarizadas con Data Pipeline a entender la terminología de Step Functions y MWAA.
Data Pipeline | Adherencia | Step Functions | Amazon MWAA |
---|---|---|---|
Canalizaciones | Flujos de trabajo | Flujos de trabajo | Gráficos acrílicos directos |
Definición de la canalización JSON | Definición de flujos de trabajo o esquemas basados en Python | Amazon State Language JSON | Basado en Python |
Actividades | Trabajos | Estados y tareas | Tareas |
instancias | Ejecuciones de trabajo | Ejecuciones | DAG se ejecuta |
Attempts | Intentos | Captadores y recolectores | Reintentos |
Calendario de canalización | Activadores de programación | EventBridge Programador de tareas | Cron |
Expresiones y funciones de canalizaciones | Biblioteca de esquemas | Step Functions, funciones intrínsecas y AWS Lambda | Framework extensible de Python |
Muestras
En las siguientes secciones se enumeran ejemplos públicos a los que puede hacer referencia para migrar AWS Data Pipeline a servicios individuales. Puede utilizarlos como ejemplos y crear su propia canalización a partir de los servicios individuales actualizándolos y probándolos en función de su caso de uso.
AWS Glue muestras
La siguiente lista contiene ejemplos de implementaciones para los casos de AWS Data Pipeline uso más comunes con. AWS Glue
AWS Ejemplos de Step Functions
La siguiente lista contiene ejemplos de implementaciones para los AWS Data Pipeline casos de uso más comunes con Step Functions AWS .
Ejecución de un trabajo de procesamiento de datos en Amazon EMR sin servidor
Consulta de conjuntos de datos de gran tamaño (Amazon Athena, Amazon S3,) AWS Glue
Consulta tutoriales adicionales y ejemplos de proyectos para usar AWS Step Functions.
Muestras de Amazon MWAA
La siguiente lista contiene ejemplos de implementaciones para los casos de AWS Data Pipeline uso más comunes con Amazon MWAA.
Consulte tutoriales adicionales y ejemplos de proyectos para usar Amazon MWAA.