기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
에서 Amazon MWAA AWS Data Pipeline 로 워크로드 마이그레이션
AWS 는 2012년에 AWS Data Pipeline 서비스를 시작했습니다. 당시 고객은 다양한 컴퓨팅 옵션을 사용하여 서로 다른 데이터 소스 간에 데이터를 이동할 수 있는 서비스를 원했습니다. 시간이 경과하면서 데이터 전송 요구 사항이 변함에 따라 이러한 요구 사항에 대한 솔루션도 변했습니다. 이제 비즈니스 요구 사항에 가장 부합하는 솔루션을 선택할 수 있습니다. 워크로드를 다음 AWS 서비스 중 하나로 마이그레이션할 수 있습니다.
-
Amazon Managed Workflows for Apache Airflow(Amazon MWAA)를 사용하여 Apache Airflow에 대한 워크플로 오케스트레이션을 관리합니다.
-
Step Functions를 사용하여 여러 AWS 서비스간의 워크플로를 오케스트레이션합니다.
-
AWS Glue 를 사용하여 Apache Spark 애플리케이션을 실행하고 오케스트레이션합니다.
선택한 옵션은 현재 AWS Data Pipeline의 워크로드에 따라 다릅니다. 이 주제에서는에서 Amazon MWAA AWS Data Pipeline 로 마이그레이션하는 방법을 설명합니다.
Amazon MWAA 선택
Amazon Managed Workflows for Apache Airflow(Amazon MWAA)는 Apache Airflow에 대한 관리형 오케스트레이션 서비스로 클라우드에서 엔드투엔드 데이터 파이프라인을 대규모로 쉽게 설정하고 운영할 수 있습니다. Apache Airflow
다음은에서 Amazon MWAA AWS Data Pipeline 로 마이그레이션할 때 얻을 수 있는 몇 가지 이점을 강조합니다.
-
확장성 및 성능 향상 – Amazon MWAA는 워크플로를 정의하고 실행할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. 이를 통해 사용자는 크고 복잡한 워크플로를 쉽게 처리하고 동적 작업 예약, 데이터 기반 워크플로 및 병렬화와 같은 기능을 활용할 수 있습니다.
-
모니터링 및 로깅 개선 – Amazon MWAA는 Amazon CloudWatch와 통합되어 워크플로의 모니터링 및 로깅을 개선합니다. Amazon MWAA는 자동으로 시스템 지표와 로그를 CloudWatch에 전송합니다. 즉, 워크플로의 진행 상황과 성능을 실시간으로 추적하고 발생하는 문제를 식별할 수 있습니다.
-
AWS 서비스 및 타사 소프트웨어와의 통합 개선 - Amazon MWAA는 DBT
, Snowflake , Databricks와 같은 타사 소프트웨어뿐만 아니라 Amazon S3 AWS Glue, Amazon Redshift와 같은 다양한 다른 AWS 서비스와 통합됩니다. https://www.databricks.com/ 이를 통해 다양한 환경 및 서비스 전반에서 데이터를 처리하고 전송할 수 있습니다. -
오픈 소스 데이터 파이프라인 도구 – Amazon MWAA는 사용자에게 익숙한 것과 동일한 오픈 소스 Apache Airflow 제품을 활용합니다. Apache Airflow는 수집, 처리, 전송, 무결성 테스트, 품질 검사, 데이터 계보 보장 등 데이터 파이프라인 관리의 모든 측면을 처리하도록 설계된 특수 목적의 도구입니다.
-
현대적이고 유연한 아키텍처 – Amazon MWAA는 컨테이너화와 클라우드 네이티브, 서버리스 기술을 활용합니다. 따라서 유연성과 이동성이 향상되고 워크플로 환경을 더 쉽게 배포 및 관리할 수 있습니다.
아키텍처 및 개념 매핑
AWS Data Pipeline 및 Amazon MWAA에는 마이그레이션 프로세스와 워크플로 정의 및 실행 방식에 영향을 미칠 수 있는 다양한 아키텍처와 구성 요소가 있습니다. 이 섹션에서는 두 서비스의 아키텍처와 구성 요소를 개괄적으로 살펴보고 몇 가지 주요 차이점을 중점적으로 설명합니다.
AWS Data Pipeline 및 Amazon MWAA는 모두 완전 관리형 서비스입니다. 워크로드를 Amazon MWAA로 마이그레이션할 때 Apache Airflow를 사용하여 기존 워크플로를 모델링하는 새로운 개념을 배워야 할 수 있습니다. 하지만 인프라를 관리하고, 작업자에게 패치를 적용하고, 운영 체제 업데이트를 관리할 필요는 없습니다.
다음 표에서는의 주요 개념을 Amazon MWAA의 주요 개념 AWS Data Pipeline 과 연결합니다. 이 정보를 출발점으로 삼아 마이그레이션 계획을 설계합니다.
개념 | AWS Data Pipeline | Amazon MWAA |
---|---|---|
파이프라인 정의 | AWS Data Pipeline 는 워크플로를 정의하는 JSON 기반 구성 파일을 사용합니다. | Amazon MWAA는 워크플로를 정의하는 Python 기반 방향성 비순환 그래프 |
파이프라인 실행 환경 | 워크플로는 Amazon EC2 인스턴스에서 실행됩니다.는 사용자를 대신하여 이러한 인스턴스를 AWS Data Pipeline 프로비저닝하고 관리합니다. | Amazon MWAA는 Amazon ECS 컨테이너식 환경을 사용하여 작업을 실행합니다. |
파이프라인 구성요소 | 활동은 워크플로의 일부로 실행되는 작업을 처리하는 것입니다. | 연산자 |
사전 조건은 활동 실행 전에 충족되어야 할 조건문이 포함되어 있습니다. | 센서 |
|
의 리소스는 파이프라인 활동이 지정하는 작업을 수행하는 AWS 컴퓨팅 리소스를 AWS Data Pipeline 나타냅니다. Amazon EC2와 Amazon EMR은 사용 가능한 두 가지 리소스입니다. | DAG에서 작업을 사용하면 Amazon ECS, Amazon EMR 및 Amazon EKS를 비롯한 다양한 컴퓨팅 리소스를 정의할 수 있습니다. Amazon MWAA는 Amazon ECS에서 실행되는 작업자에서 Python 작업을 실행합니다. | |
파이프라인 실행 | AWS Data Pipeline 는 정기적인 속도 기반 및 cron 기반 패턴으로 실행 예약을 지원합니다. | Amazon MWAA는 사용자 지정 시간표 |
인스턴스는 파이프라인의 각 실행을 참조합니다. | DAG 실행 |
|
시도란 실패한 작업을 다시 시도하는 것을 말합니다. | Amazon MWAA는 DAG 수준 또는 작업 수준에서 사용자가 정의하는 재시도를 지원합니다. |
구현 예제
많은 경우 Amazon MWAA로 마이그레이션한 AWS Data Pipeline 후 현재 오케스트레이션 중인 리소스를 재사용할 수 있습니다. 다음 목록에는 가장 일반적인 AWS Data Pipeline 사용 사례에 Amazon MWAA를 사용하는 구현 예제가 포함되어 있습니다.
-
Amazon EMR 작업 실행
(AWS 워크숍) -
Apache Hive 및 Hadoop용 사용자 지정 플러그인 생성(Amazon MWAA 사용 설명서)
-
S3에서 Redshift로 데이터 복사
(AWS 워크숍) -
원격 Amazon ECS 인스턴스에서 쉘 스크립트 실행(Amazon MWAA 사용 설명서)
-
하이브리드(온프레미스) 워크플로 오케스트레이션
(블로그 게시물)
추가 튜토리얼 및 예제는 다음을 참조하십시오.
요금 비교
요금은 파이프라인 수와 각 파이프라인을 사용하는 양을 기준으로 AWS Data Pipeline 합니다. 하루에 두 번 이상 실행하는 활동(빈도가 높음)에는 활동당 월 1 USD의 요금이 부과됩니다. 하루에 한 번 또는 그 이하(낮은 빈도)를 실행하는 활동은 활동당 월 0.60 USD의 요금이 부과됩니다. 비활성 파이프라인의 요금은 파이프라인당 1 USD입니다. 자세한 내용은 AWS Data Pipeline 요금
Amazon MWAA 요금은 관리형 Apache Airflow 환경이 존재하는 기간, 더 많은 작업자 또는 스케줄러 용량을 제공하는 데 필요한 추가 Auto Scaling을 기반으로 합니다. Amazon MWAA 환경 사용에 대한 요금은 시간당(1초 단위로 청구)이며, 환경 규모에 따라 요금이 달라집니다. Amazon MWAA는 환경 구성을 기반으로 작업자 수를 자동으로 조정합니다. AWS 은 추가 작업자의 비용을 별도로 계산합니다. 다양한 Amazon MWAA 환경 크기를 사용하는 데 드는 시간당 비용에 대한 자세한 내용은 Amazon MWAA 요금
관련 리소스
Amazon MWAA 사용에 대한 자세한 내용 및 모범 사례는 다음 리소스를 참조하십시오.