Was ist Amazon Managed Workflows für Apache Airflow? - Amazon Managed Workflows für Apache Airflow

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Was ist Amazon Managed Workflows für Apache Airflow?

Verwenden Sie Amazon Managed Workflows for Apache Airflow, einen verwalteten Orchestrierungsservice für Apache Airflow, um Daten-Pipelines in der Cloud in großem Umfang einzurichten und zu betreiben. Apache Airflow ist ein Open-Source-Tool zum programmgesteuerten Erstellen, Planen und Überwachen von Prozess- und Aufgabensequenzen, die als Workflows bezeichnet werden.

Mit Amazon MWAA können Sie Apache Airflow und Python verwenden, um Workflows zu erstellen, ohne die zugrunde liegende Infrastruktur im Hinblick auf Skalierbarkeit, Verfügbarkeit und Sicherheit verwalten zu müssen. Amazon MWAA passt seine Workflow-Ausführungskapazität automatisch an Ihre Bedürfnisse an und lässt sich in AWS Sicherheitsservices integrieren, um Ihnen einen schnellen und sicheren Zugriff auf Ihre Daten zu ermöglichen.

Features

Sehen Sie sich die folgenden Funktionen an, um zu erfahren, wie Amazon MWAA die Verwaltung Ihrer Apache Airflow Airflow-Workflows vereinfachen kann.

  • Automatisches Airflow-Setup — Richten Sie Apache Airflow schnell ein, indem Sie beim Erstellen einer Amazon MWAA-Umgebung eine Apache Airflow Airflow-Version auswählen. Amazon MWAA richtet Apache Airflow für Sie mit derselben Apache Airflow Airflow-Benutzeroberfläche und demselben Open-Source-Code ein, den Sie im Internet herunterladen können.

  • Automatische Skalierung — Skalieren Sie Apache Airflow Workers automatisch, indem Sie die minimale und maximale Anzahl von Workern festlegen, die in Ihrer Umgebung ausgeführt werden. Amazon MWAA überwacht die Mitarbeiter in Ihrer Umgebung und fügt mithilfe seiner Autoscaling-Komponente je nach Bedarf Mitarbeiter hinzu, bis die von Ihnen definierte maximale Anzahl von Mitarbeitern erreicht ist.

  • Integrierte Authentifizierung — Aktivieren Sie die rollenbasierte Authentifizierung und Autorisierung für Ihren Apache Airflow Airflow-Webserver, indem Sie die Zugriffskontrollrichtlinien in AWS Identity and Access Management (IAM) definieren. Die Apache Airflow Workers übernehmen diese Richtlinien für den sicheren Zugriff auf AWS Dienste.

  • Integrierte Sicherheit — Die Apache Airflow Workers and Scheduler werden in der Amazon VPC von Amazon MWAA ausgeführt. Daten werden außerdem automatisch mit verschlüsselt AWS Key Management Service, sodass Ihre Umgebung standardmäßig sicher ist.

  • Öffentliche oder private Zugriffsmodi — Greifen Sie über einen privaten oder öffentlichen Zugriffsmodus auf Ihren Apache Airflow Airflow-Webserver zu. Der öffentliche Netzwerkzugriffsmodus verwendet einen VPC-Endpunkt für Ihren Apache Airflow Airflow-Webserver, auf den über das Internet zugegriffen werden kann. Der private Netzwerkzugriffsmodus verwendet einen VPC-Endpunkt für Ihren Apache Airflow Airflow-Webserver, auf den in Ihrer VPC zugegriffen werden kann. In beiden Fällen wird der Zugriff für Ihre Apache Airflow Airflow-Benutzer durch die Zugriffskontrollrichtlinie gesteuert, die Sie in AWS Identity and Access Management (IAM) definieren, und AWS durch SSO.

  • Optimierte Upgrades und Patches — Amazon MWAA stellt regelmäßig neue Versionen von Apache Airflow bereit. Das Amazon MWAA-Team wird die Images für diese Versionen aktualisieren und patchen.

  • Workflow-Überwachung — Sehen Sie sich Apache Airflow-Protokolle und Apache Airflow-Metriken in Amazon CloudWatch an, um Verzögerungen oder Workflow-Fehler bei Apache Airflow Airflow-Aufgaben zu identifizieren, ohne dass zusätzliche Tools von Drittanbietern erforderlich sind. Amazon MWAA sendet automatisch Umgebungsmetriken — und falls aktiviert — Apache Airflow Airflow-Protokolle an. CloudWatch

  • AWS Integration — Amazon MWA unterstützt Open-Source-Integrationen mit Amazon Athena, Amazon, Amazon DynamoDB AWS Batch CloudWatch, Amazon EMR, Amazon EKS AWS DataSync, Amazon Data Firehose AWS Fargate,,, Amazon Redshift, Amazon SQS AWS Glue AWS Lambda, Amazon SNS, Amazon SageMaker AI und Amazon S3 sowie Hunderte von integrierten und von der Community erstellten Operatoren und Sensoren.

  • Arbeiterflotten — Amazon MWAA bietet Unterstützung für den Einsatz von Containern, um die Mitarbeiterflotte nach Bedarf zu skalieren und Planerausfälle zu reduzieren, wenn Amazon ECS aktiviert ist. AWS Fargate Operatoren, die Aufgaben auf Amazon ECS-Containern aufrufen, und Kubernetes-Operatoren, die Pods auf einem Kubernetes-Cluster erstellen und ausführen, werden unterstützt.

Architektur

Alle in der äußeren Verpackung enthaltenen Komponenten (in der Abbildung unten) werden in Ihrem Konto als eine einzige Amazon MWAA-Umgebung angezeigt. Der Apache Airflow Scheduler und Workers sind AWS Fargate Container, die eine Verbindung zu den privaten Subnetzen in der Amazon VPC für Ihre Umgebung herstellen. Jede Umgebung hat ihre eigene Apache Airflow-Metadatenbank, die von ihr verwaltet wird und auf AWS die die Container Scheduler und Workers Fargate über einen privat gesicherten VPC-Endpunkt zugreifen können.

Amazon CloudWatch, Amazon S3, Amazon SQS und AWS KMS sind von Amazon MWAA getrennt und müssen über die Apache Airflow Scheduler (s) und Workers in den Fargate-Containern zugänglich sein.

Auf den Apache Airflow Airflow-Webserver kann entweder über das Internet zugegriffen werden, indem Sie den Apache Airflow Airflow-Zugriffsmodus für öffentliches Netzwerk auswählen, oder innerhalb Ihrer VPC, indem Sie den Apache Airflow Airflow-Zugriffsmodus für privates Netzwerk auswählen. In beiden Fällen wird der Zugriff für Ihre Apache Airflow Airflow-Benutzer durch die Zugriffskontrollrichtlinie gesteuert, die Sie in AWS Identity and Access Management (IAM) definieren.

Anmerkung

Mehrere Apache Airflow Scheduler sind nur mit Apache Airflow v2 und höher verfügbar. Weitere Informationen zum Apache Airflow Airflow-Aufgabenlebenszyklus finden Sie unter Concepts im Apache Airflow Airflow-Referenzhandbuch.

Dieses Bild zeigt die Architektur einer Amazon MWAA-Umgebung.

Integration

Die aktive und wachsende Open-Source-Community von Apache Airflow bietet Betreibern (Plugins, die Verbindungen zu Diensten vereinfachen) für die Integration von Apache Airflow in Dienste. AWS Dazu gehören Dienste wie Amazon S3, Amazon Redshift, Amazon EMR und Amazon SageMaker AI sowie Dienste auf anderen Cloud-Plattformen. AWS Batch

Die Verwendung von Apache Airflow mit Amazon MWAA unterstützt vollständig die Integration mit AWS Diensten und beliebten Drittanbieter-Tools wie Apache Hadoop, Presto, Hive und Spark zur Ausführung von Datenverarbeitungsaufgaben. Amazon MWAA ist bestrebt, die Kompatibilität mit der Apache Airflow API aufrechtzuerhalten, und Amazon MWAA beabsichtigt, zuverlässige Integrationen für AWS Dienste bereitzustellen und sie der Community zur Verfügung zu stellen und sich an der Entwicklung von Community-Funktionen zu beteiligen.

Beispielcode finden Sie unter. Codebeispiele für Amazon Managed Workflows für Apache Airflow

Unterstützte Versionen

Amazon MWAA unterstützt mehrere Versionen von Apache Airflow. Weitere Informationen zu den von uns unterstützten Apache Airflow Airflow-Versionen und den in jeder Version enthaltenen Apache Airflow Airflow-Komponenten finden Sie unter. Apache Airflow-Versionen auf Amazon Managed Workflows für Apache Airflow

Als nächstes