¿Qué es Amazon Managed Workflows para Apache Airflow? - Amazon Managed Workflows para Apache Airflow

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es Amazon Managed Workflows para Apache Airflow?

Amazon Managed Workflows para Apache Airflow es un servicio de orquestación administrada para Apache Airflow que puede usar para configurar y operar canalizaciones de datos integrales en la nube a escala. Apache Airflow es una herramienta de código abierto que se utiliza para crear, programar y supervisar secuencias de procesos y tareas denominadas flujos de trabajo mediante programación. Con AmazonMWAA, puede usar Apache Airflow y Python para crear flujos de trabajo sin tener que gestionar la infraestructura subyacente en cuanto a escalabilidad, disponibilidad y seguridad. Amazon amplía MWAA automáticamente la capacidad de ejecución de sus flujos de trabajo para adaptarla a sus necesidades. Amazon MWAA se integra con los servicios de AWS seguridad para proporcionarle un acceso rápido y seguro a sus datos.

Características

  • Configuración automática del flujo de aire: configure rápidamente Apache Airflow eligiendo una versión de Apache Airflow al crear un entorno de Amazon. MWAA Amazon MWAA configura Apache Airflow para ti mediante la misma interfaz de usuario de Apache Airflow y el mismo código de código abierto que puedes descargar de Internet.

  • Escalado automático: escale automáticamente los procesos de trabajo de Apache Airflow estableciendo el número mínimo y máximo de procesos de trabajo que se ejecutan en su entorno. Amazon MWAA supervisa a los trabajadores de su entorno y utiliza su componente de escalado automático para añadir trabajadores a fin de satisfacer la demanda, hasta alcanzar el número máximo de trabajadores que haya definido.

  • Autenticación integrada: habilite la autenticación y la autorización basadas en roles para su servidor web Apache Airflow definiendo las políticas de control de acceso en (). AWS Identity and Access Management IAM Los trabajadores de Apache Airflow asumen estas políticas para garantizar el acceso a los servicios. AWS

  • Seguridad integrada: los Apache Airflow Workers and Schedulers funcionan en Amazon de MWAA Amazon. VPC Los datos también se cifran automáticamente mediante AWS Key Management Service, por lo que su entorno es seguro de forma predeterminada.

  • Modos de acceso público o privado: acceda a su servidor web de Apache Airflow mediante un modo de acceso público o privado. El modo de acceso a la red pública utiliza un VPC punto final para el servidor web Apache Airflow al que se puede acceder a través de Internet. El modo de acceso a la red privada utiliza un VPC punto final para su servidor web Apache Airflow al que puede acceder desde su servidor. VPC En ambos casos, el acceso de los usuarios de Apache Airflow se controla mediante la política de control de acceso que defina en AWS Identity and Access Management (IAM) y. AWS SSO

  • Actualizaciones y parches simplificados: Amazon MWAA proporciona nuevas versiones de Apache Airflow periódicamente. El MWAA equipo de Amazon actualizará y parcheará las imágenes de estas versiones.

  • Supervisión del flujo de trabajo: consulta los registros de Apache Airflow y las métricas de Apache Airflow en Amazon CloudWatch para identificar los retrasos en las tareas de Apache Airflow o los errores en el flujo de trabajo sin necesidad de utilizar herramientas adicionales de terceros. Amazon envía MWAA automáticamente las métricas del entorno y, si están habilitadas, los registros de Apache Airflow a. CloudWatch

  • AWS integración: Amazon MWAA admite integraciones de código abierto con Amazon Athena, Amazon AWS Batch, CloudWatch Amazon DynamoDB, Amazon, Amazon, AWS DataSync Amazon Data Firehose, EMR AWS Fargate Amazon AWS Lambda Redshift, EKS Amazon, Amazon DynamoDB, AWS Glue Amazon, Amazon y Amazon S3, así como cientos de SNS operadores y SageMaker sensores integrados y creados por la comunidad. SQS

  • Flotas de trabajadores: Amazon MWAA ofrece soporte para el uso de contenedores para ampliar la flota de trabajadores bajo demanda y reducir las interrupciones de los planificadores utilizando Amazon on. ECS AWS Fargate Se admiten los operadores que invocan tareas en ECS los contenedores de Amazon y los operadores de Kubernetes que crean y ejecutan pods en un clúster de Kubernetes.

Arquitectura

Todos los componentes contenidos en la caja exterior (en la imagen de abajo) aparecen como un único MWAA entorno de Amazon en tu cuenta. Apache Airflow Scheduler y Workers son AWS Fargate (Fargate) contenedores que se conectan a las subredes privadas de Amazon VPC para su entorno. Cada entorno tiene su propia base de metadatos de Apache Airflow gestionada por la AWS que pueden acceder los contenedores Scheduler y Workers Fargate a través de un punto final protegido de forma privada. VPC

Amazon CloudWatch, Amazon S3SQS, Amazon y Amazon AWS KMS son independientes de Amazon MWAA y se debe poder acceder a ellos desde los planificadores de flujo de aire de Apache y los contenedores Workers in the Fargate.

Se puede acceder al servidor web Apache Airflow a través de Internet, seleccionando el modo de acceso Apache Airflow a la red pública, o desde su interior, VPC seleccionando el modo de acceso Apache Airflow a la red privada. En ambos casos, el acceso de los usuarios de Apache Airflow se controla mediante la política de control de acceso que defina en (). AWS Identity and Access Management IAM

nota

Solo en Apache Airflow v2 y versiones posteriores hay disponibles varios programadores de Apache Airflow. Para más información sobre el ciclo de vida de las tareas de Apache Airflow en Conceptos, consulte la guía de referencia de Apache Airflow.

Esta imagen muestra la arquitectura de un MWAA entorno de Amazon.

Integración

La activa y creciente comunidad de código abierto de Apache Airflow proporciona operadores (complementos que simplifican las conexiones a los servicios) para que Apache Airflow se integre con los servicios. AWS Esto incluye servicios como Amazon S3, Amazon Redshift, Amazon y Amazon EMR AWS Batch SageMaker, así como servicios en otras plataformas en la nube.

El uso de Apache Airflow con Amazon es MWAA totalmente compatible con AWS servicios y herramientas populares de terceros, como Apache Hadoop, Presto, Hive y Spark, para realizar tareas de procesamiento de datos. Amazon MWAA se compromete a mantener la compatibilidad con Amazon MWAAAPI, y Amazon MWAA tiene la intención de proporcionar integraciones fiables a AWS los servicios y ponerlos a disposición de la comunidad, además de participar en el desarrollo de funciones de la comunidad.

Para ver el código de muestra, consulte Códigos de ejemplo de Amazon Managed Workflows para Apache Airflow.

Versiones compatibles

Amazon MWAA admite varias versiones de Apache Airflow. Para obtener más información sobre las versiones de Apache Airflow que admitimos y los componentes de Apache Airflow incluidos en cada versión, consulte Versiones de Apache Airflow en Amazon Managed Workflows para Apache Airflow.

Siguientes pasos