에서 Amazon MWAA AWS Data Pipeline 로 워크로드 마이그레이션 - Amazon Managed Workflows for Apache Airflow

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 Amazon MWAA AWS Data Pipeline 로 워크로드 마이그레이션

AWS 는 2012년에 AWS Data Pipeline 서비스를 시작했습니다. 당시 고객은 다양한 컴퓨팅 옵션을 사용하여 서로 다른 데이터 소스 간에 데이터를 이동할 수 있는 서비스를 원했습니다. 시간이 경과하면서 데이터 전송 요구 사항이 변함에 따라 이러한 요구 사항에 대한 솔루션도 변했습니다. 이제 비즈니스 요구 사항에 가장 부합하는 솔루션을 선택할 수 있습니다. 워크로드를 다음 AWS 서비스 중 하나로 마이그레이션할 수 있습니다.

  • Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 Apache Airflow에 대한 워크플로 오케스트레이션을 관리합니다.

  • Step Functions를 사용하여 여러 AWS 서비스간의 워크플로를 오케스트레이션합니다.

  • AWS Glue 를 사용하여 Apache Spark 애플리케이션을 실행하고 오케스트레이션합니다.

선택한 옵션은 현재 AWS Data Pipeline의 워크로드에 따라 다릅니다. 이 주제에서는에서 Amazon MWAA AWS Data Pipeline 로 마이그레이션하는 방법을 설명합니다.

Amazon MWAA 선택

Amazon Managed Workflows for Apache Airflow(Amazon MWAA)는 Apache Airflow에 대한 관리형 오케스트레이션 서비스로 클라우드에서 엔드투엔드 데이터 파이프라인을 대규모로 쉽게 설정하고 운영할 수 있습니다. Apache Airflow워크플로라고 하는 프로세스 및 작업 시퀀스를 프로그래밍 방식으로 작성, 예약 및 모니터링하는 데 사용되는 오픈 소스 도구입니다. Amazon MWAA를 사용하면 확장성, 가용성 및 보안을 위해 기본 인프라를 관리할 필요 없이 Apache Airflow와 Python 프로그래밍 언어를 사용하여 워크플로를 생성할 수 있습니다. Amazon MWAA는 필요에 맞게 워크플로 용량을 자동으로 확장하며 데이터에 대한 빠르고 안전한 액세스를 제공하는 데 도움이 되도록 AWS 보안 서비스와 통합됩니다.

다음은에서 Amazon MWAA AWS Data Pipeline 로 마이그레이션할 때 얻을 수 있는 몇 가지 이점을 강조합니다.

  • 확장성 및 성능 향상 – Amazon MWAA는 워크플로를 정의하고 실행할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. 이를 통해 사용자는 크고 복잡한 워크플로를 쉽게 처리하고 동적 작업 예약, 데이터 기반 워크플로 및 병렬화와 같은 기능을 활용할 수 있습니다.

  • 모니터링 및 로깅 개선 – Amazon MWAA는 Amazon CloudWatch와 통합되어 워크플로의 모니터링 및 로깅을 개선합니다. Amazon MWAA는 자동으로 시스템 지표와 로그를 CloudWatch에 전송합니다. 즉, 워크플로의 진행 상황과 성능을 실시간으로 추적하고 발생하는 문제를 식별할 수 있습니다.

  • AWS 서비스 및 타사 소프트웨어와의 통합 개선 - Amazon MWAA는 DBT, Snowflake, Databricks와 같은 타사 소프트웨어뿐만 아니라 Amazon S3 AWS Glue, Amazon Redshift와 같은 다양한 다른 AWS 서비스와 통합됩니다. https://www.databricks.com/ 이를 통해 다양한 환경 및 서비스 전반에서 데이터를 처리하고 전송할 수 있습니다.

  • 오픈 소스 데이터 파이프라인 도구 – Amazon MWAA는 사용자에게 익숙한 것과 동일한 오픈 소스 Apache Airflow 제품을 활용합니다. Apache Airflow는 수집, 처리, 전송, 무결성 테스트, 품질 검사, 데이터 계보 보장 등 데이터 파이프라인 관리의 모든 측면을 처리하도록 설계된 특수 목적의 도구입니다.

  • 현대적이고 유연한 아키텍처 – Amazon MWAA는 컨테이너화와 클라우드 네이티브, 서버리스 기술을 활용합니다. 따라서 유연성과 이동성이 향상되고 워크플로 환경을 더 쉽게 배포 및 관리할 수 있습니다.

아키텍처 및 개념 매핑

AWS Data Pipeline 및 Amazon MWAA에는 마이그레이션 프로세스와 워크플로 정의 및 실행 방식에 영향을 미칠 수 있는 다양한 아키텍처와 구성 요소가 있습니다. 이 섹션에서는 두 서비스의 아키텍처와 구성 요소를 개괄적으로 살펴보고 몇 가지 주요 차이점을 중점적으로 설명합니다.

AWS Data Pipeline 및 Amazon MWAA는 모두 완전 관리형 서비스입니다. 워크로드를 Amazon MWAA로 마이그레이션할 때 Apache Airflow를 사용하여 기존 워크플로를 모델링하는 새로운 개념을 배워야 할 수 있습니다. 하지만 인프라를 관리하고, 작업자에게 패치를 적용하고, 운영 체제 업데이트를 관리할 필요는 없습니다.

다음 표에서는의 주요 개념을 Amazon MWAA의 주요 개념 AWS Data Pipeline 과 연결합니다. 이 정보를 출발점으로 삼아 마이그레이션 계획을 설계합니다.

개념 AWS Data Pipeline Amazon MWAA
파이프라인 정의 AWS Data Pipeline 는 워크플로를 정의하는 JSON 기반 구성 파일을 사용합니다. Amazon MWAA는 워크플로를 정의하는 Python 기반 방향성 비순환 그래프(DAG)를 사용합니다.
파이프라인 실행 환경 워크플로는 Amazon EC2 인스턴스에서 실행됩니다.는 사용자를 대신하여 이러한 인스턴스를 AWS Data Pipeline 프로비저닝하고 관리합니다. Amazon MWAA는 Amazon ECS 컨테이너식 환경을 사용하여 작업을 실행합니다.
파이프라인 구성요소 활동은 워크플로의 일부로 실행되는 작업을 처리하는 것입니다. 연산자(작업)는 워크플로의 기본 처리 단위입니다.
사전 조건은 활동 실행 전에 충족되어야 할 조건문이 포함되어 있습니다. 센서(작업)는 리소스 또는 작업이 완료될 때까지 기다렸다가 실행할 수 있는 조건문을 나타냅니다.
리소스는 파이프라인 활동이 지정하는 작업을 수행하는 AWS 컴퓨팅 리소스를 AWS Data Pipeline 나타냅니다. Amazon EC2와 Amazon EMR은 사용 가능한 두 가지 리소스입니다. DAG에서 작업을 사용하면 Amazon ECS, Amazon EMR 및 Amazon EKS를 비롯한 다양한 컴퓨팅 리소스를 정의할 수 있습니다. Amazon MWAA는 Amazon ECS에서 실행되는 작업자에서 Python 작업을 실행합니다.
파이프라인 실행 AWS Data Pipeline 는 정기적인 속도 기반 및 cron 기반 패턴으로 실행 예약을 지원합니다. Amazon MWAA는 사용자 지정 시간표뿐만 아니라 cron 표현식 및 사전 설정을 통한 일정 관리를 지원합니다.
인스턴스는 파이프라인의 각 실행을 참조합니다. DAG 실행은 Apache Airflow 워크플로의 각 실행을 의미합니다.
시도란 실패한 작업을 다시 시도하는 것을 말합니다. Amazon MWAA는 DAG 수준 또는 작업 수준에서 사용자가 정의하는 재시도를 지원합니다.

구현 예제

많은 경우 Amazon MWAA로 마이그레이션한 AWS Data Pipeline 후 현재 오케스트레이션 중인 리소스를 재사용할 수 있습니다. 다음 목록에는 가장 일반적인 AWS Data Pipeline 사용 사례에 Amazon MWAA를 사용하는 구현 예제가 포함되어 있습니다.

추가 튜토리얼 및 예제는 다음을 참조하십시오.

요금 비교

요금은 파이프라인 수와 각 파이프라인을 사용하는 양을 기준으로 AWS Data Pipeline 합니다. 하루에 두 번 이상 실행하는 활동(빈도가 높음)에는 활동당 월 1 USD의 요금이 부과됩니다. 하루에 한 번 또는 그 이하(낮은 빈도)를 실행하는 활동은 활동당 월 0.60 USD의 요금이 부과됩니다. 비활성 파이프라인의 요금은 파이프라인당 1 USD입니다. 자세한 내용은 AWS Data Pipeline 요금 페이지를 참조하십시오.

Amazon MWAA 요금은 관리형 Apache Airflow 환경이 존재하는 기간, 더 많은 작업자 또는 스케줄러 용량을 제공하는 데 필요한 추가 Auto Scaling을 기반으로 합니다. Amazon MWAA 환경 사용에 대한 요금은 시간당(1초 단위로 청구)이며, 환경 규모에 따라 요금이 달라집니다. Amazon MWAA는 환경 구성을 기반으로 작업자 수를 자동으로 조정합니다. AWS 은 추가 작업자의 비용을 별도로 계산합니다. 다양한 Amazon MWAA 환경 크기를 사용하는 데 드는 시간당 비용에 대한 자세한 내용은 Amazon MWAA 요금 페이지를 참조하십시오.

관련 리소스

Amazon MWAA 사용에 대한 자세한 내용 및 모범 사례는 다음 리소스를 참조하십시오.