Amazon Managed Workflows for Apache Airflow란 무엇입니까? - Amazon Managed Workflows for Apache Airflow

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Managed Workflows for Apache Airflow란 무엇입니까?

Amazon Managed Workflows for Apache Airflow(MWAA)는 Apache Airflow에 대한 관리형 오케스트레이션 서비스로 클라우드에서 데이터 파이프라인을 대규모로 설정하고 운영하는 데 사용할 수 있습니다. Apache Airflow는 워크플로우라고 하는 프로세스 및 작업 시퀀스를 프로그래밍 방식으로 작성, 예약 및 모니터링하는 데 사용되는 오픈 소스 도구입니다. Amazon MWAA를 사용하면 확장성, 가용성 및 보안을 위해 기본 인프라를 관리할 필요 없이 Apache Airflow와 Python을 사용하여 워크플로우를 생성할 수 있습니다. Amazon MWAA는 필요에 맞게 워크플로 실행 용량을 자동으로 확장합니다. Amazon MWAA는 AWS 보안 서비스와 통합되어 데이터에 빠르고 안전하게 액세스할 수 있도록 지원합니다.

기능

  • Automatic Airflow 설정 – Amazon MWAA 환경을 생성할 때 Apache Airflow 버전을 선택하여 Apache Airflow를 빠르게 설정할 수 있습니다. Amazon MWAA는 인터넷에서 다운로드할 수 있는 것과 동일한 Apache Airflow 사용자 인터페이스와 오픈 소스 코드를 사용하여 자동으로 Apache Airflow를 설정합니다.

  • 자동 규모 조정 – 사용자 환경에서 실행되는 최소 및 최대 작업자 수를 설정하여 Apache Airflow 작업자를 규모를 자동으로 조정합니다. Amazon MWAA는 사용자 환경의 작업자를 모니터링하고 자동 규모 조정 구성 요소를 사용하여 사용자가 정의한 최대 작업자 수에 도달할 때까지 수요에 맞춰 작업자를 추가합니다.

  • 내장 인증 — IAM () 에서 액세스 제어 정책을 정의하여 Apache Airflow 웹 서버에 대한 역할 기반 인증 및 권한 부여를 활성화합니다. AWS Identity and Access Management Apache Airflow 작업자는 서비스에 대한 보안 액세스를 위해 이러한 정책을 적용합니다. AWS

  • 내장 보안 – Apache Airflow 작업자스케줄러Amazon MWAA의 Amazon VPC에서 실행됩니다. 또한 를 사용하여 데이터가 자동으로 AWS Key Management Service 암호화되므로 사용자 환경은 기본적으로 안전합니다.

  • 퍼블릭 또는 프라이빗 액세스 모드 – 프라이빗 또는 퍼블릭 액세스 모드를 사용하여 Apache Airflow 웹 서버에 액세스합니다. 퍼블릭 네트워크 액세스 모드는 인터넷을 통해 액세스할 수 있는 Apache Airflow 웹 서버의 VPC 엔드포인트를 사용합니다. 프라이빗 네트워크 액세스 모드는 사용자의 VPC에서 액세스할 수 있는 Apache Airflow 웹 서버의 VPC 엔드포인트를 사용합니다. 두 경우 모두 Apache Airflow 사용자의 액세스는 IAM AWS Identity and Access Management (IAM) 에서 정의한 액세스 제어 정책 및 SSO에 의해 제어됩니다. AWS

  • 간소화된 업그레이드 및 패치 – Amazon MWAA는 정기적으로 새 버전의 Apache Airflow를 제공합니다. Amazon MWAA 팀이 해당 버전의 이미지를 업데이트하고 패치합니다.

  • 워크플로 모니터링 CloudWatch Amazon에서 Apache Airflow 로그 및 Apache Airflow 지표를 확인하여 추가 타사 도구 없이도 Apache Airflow 작업 지연이나 워크플로 오류를 식별할 수 있습니다. Amazon MWAA는 환경 지표를 자동으로 전송하며, 활성화된 경우 Apache Airflow 로그를 에 전송합니다. CloudWatch

  • AWS 통합 — Amazon MWAA는 Amazon Athena, Amazon, Amazon DynamoDB, Amazon AWS DataSync EMR AWS Batch, Amazon CloudWatch EKS, Amazon Data Firehose,,, AWS Fargate Amazon AWS Lambda Redshift, Amazon SQS, Amazon SNS, AWS Glue Amazon S3와의 오픈 소스 통합은 물론 수백 개의 내장 및 커뮤니티 기능을 지원합니다. 오퍼레이터와 센서를 만들었습니다. SageMaker

  • 작업자 플릿 — Amazon MWAA는 컨테이너를 사용하여 온디맨드로 작업자 플릿의 규모를 조정하고 AWS Fargate의 Amazon ECS를 사용하여 스케줄러 중단을 줄일 수 있도록 지원합니다. Amazon ECS 컨테이너에서 작업을 호출하는 연산자와 Kubernetes 클러스터에서 파드를 생성하고 실행하는 Kubernetes 연산자가 지원됩니다.

아키텍처

외부 상자(아래 이미지)에 포함된 모든 구성 요소는 계정에서 단일 Amazon MWAA 환경으로 나타납니다. Apache 에어플로우 스케줄러와 워커는 AWS Fargate (Fargate) 사용자 환경의 Amazon VPC에 있는 프라이빗 서브넷에 연결하는 컨테이너입니다. 각 환경에는 개인 보안이 설정된 VPC 엔드포인트를 통해 스케줄러 Workers Fargate 컨테이너에 액세스할 수 AWS 있는 자체 Apache Airflow 메타데이터베이스가 관리됩니다.

Amazon CloudWatch, Amazon S3, Amazon SQS, Amazon AWS KMS ECR은 Amazon MWAA와 별개이므로 아파치 에어플로우 스케줄러 및 Fargate 컨테이너의 작업자를 통해 액세스할 수 있어야 합니다.

퍼블릭 네트워크 Apache Airflow 액세스 모드를 선택하여 인터넷을 통해 Apache Airflow 웹 서버에 액세스하거나 사용자의 VPC 내에서 프라이빗 네트워크 Apache Airflow 액세스 모드를 선택하여 액세스할 수 있습니다. 두 경우 모두 Apache Airflow 사용자의 액세스는 사용자가 정의한 액세스 제어 정책 (IAM) 에 의해 제어됩니다. AWS Identity and Access Management

참고

다중 Apache Airflow 스케줄러는 Apache Airflow v2 이상에서만 사용할 수 있습니다. Apache Airflow 참조 가이드개념에서 Apache Airflow 작업 수명 주기에 대해 자세히 알아봅니다.

이 이미지는 Amazon MWAA 환경의 아키텍처를 보여줍니다.

통합

활발하게 성장하고 있는 Apache Airflow 오픈 소스 커뮤니티는 Apache Airflow를 서비스와 통합할 수 있는 운영자 (서비스 연결을 단순화하는 플러그인) 를 제공합니다. AWS 여기에는 Amazon S3, Amazon Redshift, Amazon EMR SageMaker, AWS Batch Amazon 등의 서비스와 다른 클라우드 플랫폼의 서비스가 포함됩니다.

Amazon MWAA와 함께 Apache Airflow를 사용하면 AWS 서비스 및 Apache 하둡, Presto, Hive, Spark와 같은 인기 있는 타사 도구와의 통합이 완벽하게 지원되어 데이터 처리 작업을 수행할 수 있습니다. Amazon MWAA는 Amazon MWAA API와의 호환성을 유지하기 위해 최선을 다하고 있으며, Amazon MWAA는 AWS 서비스에 대한 안정적인 통합을 제공하고 커뮤니티에서 사용할 수 있도록 하며 커뮤니티 기능 개발에 참여하고자 합니다.

샘플 코드에 대한 내용은 Amazon Managed Workflows for Apache Airflow용 코드 예제 단원을 참조하십시오.

지원되는 버전

Amazon MWAA는 여러 버전의 Apache Airflow를 지원합니다. 지원하는 Apache Airflow 버전과 각 버전에 포함된 Apache Airflow 구성 요소에 대한 자세한 내용은 Amazon Managed Workflows for Apache Airflow의 Apache Airflow 버전 단원을 참조하십시오.

다음 단계