AWS Data Pipeline란 무엇인가요? - AWS Data Pipeline

AWS Data Pipeline란 무엇인가요?

참고

AWS Data Pipeline 서비스가 유지 관리 모드이며 새로운 기능이나 지역 확장은 계획되어 있지 않습니다. 기존 워크로드를 마이그레이션하는 방법에 대해 알아보고 발견하려면 AWS Data Pipeline에서 워크로드 마이그레이션을(를) 참조하세요.

AWS Data Pipeline은 데이터의 이동과 변환을 자동화하는 데 사용할 수 있는 웹 서비스입니다. AWS Data Pipeline을 사용하면 데이터 중심 워크플로우를 정의할 수 있어 성공적으로 완료한 이전 작업을 바탕으로 작업을 수행할 수 있습니다. 데이터 변환의 파라미터를 정의하면 AWS Data Pipeline이 여러분이 설정한 로직을 실행합니다.

AWS Data Pipeline의 다음 구성요소가 서로 연계되어 데이터를 관리합니다.

  • 파이프라인 정의에서는 데이터 관리의 비즈니스 로직을 지정합니다. 자세한 내용은 파이프라인 정의 파일 구문 섹션을 참조하세요.

  • 파이프라인은 정의된 작업 활동을 수행할 Amazon EC2 인스턴스를 생성함으로써 작업을 예약하고 실행합니다. 파이프라인 정의를 파이프라인에 업로드한 다음 파이프라인을 활성화합니다. 파이프라인 실행을 위한 정의를 편집할 수 있는데, 효력을 발휘하려면 파이프라인을 다시 활성화해야 합니다. 파이프라인을 비활성화하고 데이터 원본을 수정한 다음 파이프라인을 다시 활성화할 수 있습니다. 파이프라인을 사용한 작업을 완료하면 이를 삭제할 수 있습니다.

  • Task Runner는 작업에 대한 폴링을 수행한 다음 작업을 수행합니다. 예를 들어, Task Runner는 로그 파일을 Amazon S3에 복사하고 Amazon EMR 클러스터를 시작할 수 있습니다. Task Runner는 파이프라인 정의로 생성된 리소스에 자동으로 설치되고 실행됩니다. 사용자 지정 작업 실행 애플리케이션을 작성하거나 AWS Data Pipeline에서 제공하는 Task Runner 애플리케이션을 사용할 수 있습니다. 자세한 내용은 작업 실행기 섹션을 참조하세요.

예를 들어, AWS Data Pipeline을(를) 사용하여 매일 웹 서버 로그를 Amazon Simple Storage Service(S3)에 보관한 다음, 매주 해당 로그에 대해 Amazon EMR(Amazon EMR) 클러스터를 실행하여 트래픽 보고서를 생성할 수 있습니다. AWS Data Pipeline은(는) 일일 작업인 데이터 복사와 주간 작업인 Amazon EMR 클러스터 시작의 일정을 수립합니다. 또한 AWS Data Pipeline은(는) 최종일의 데이터가 분석이 시작되기 전에, 로그 업로드가 예기치 않게 지연되는 경우라도 Amazon EMR이 최종일의 데이터가 Amazon S3로 업로드되는 것을 기다리고 있다는 것을 확인합니다.

AWS Data Pipeline 기능 개요

AWS Data Pipeline에 액세스

다음 인터페이스 중 하나를 사용하여 파이프라인을 생성하고, 액세스하고, 관리할 수 있습니다.

  • AWS Management Console— AWS Data Pipeline에 액세스할 때 사용할 수 있는 웹 인터페이스를 제공합니다.

  • AWS Command Line Interface(AWS CLI) — 다양한 AWS 서비스에서 사용되는 명령(AWS Data Pipeline 포함)을 제공하며 Windows, macOS, Linux를 지원합니다. AWS CLI 설치에 대한 자세한 내용은 AWS Command Line Interface 단원을 참조하십시오. AWS Data Pipeline에서 사용되는 명령어 목록은 datapipeline을 참조하십시오.

  • AWS SDK — 언어별 API를 제공하고, 서명 계산, 요청 재시도 처리 및 오류 처리와 같은 많은 연결 세부 정보를 관리합니다. 자세한 정보는 AWS SDK를 참조하십시오.

  • 쿼리 API—HTTPS 요청을 사용하여 호출하는 하위 수준의 API를 제공합니다. 쿼리 API 사용은 AWS Data Pipeline에 액세스하는 가장 직접적인 방법이지만, 애플리케이션에서 요청에 서명할 해시 생성 및 오류 처리와 같은 하위 수준의 세부 정보를 처리해야 합니다. 자세한 내용은 AWS Data Pipeline API 참조를 참조하세요.

요금

Amazon Web Services에서는 사용한 만큼만 비용을 지불하며, AWS Data Pipeline의 경우, 활동 및 사전 조건이 얼마나 자주 실행 예약이 되는지 어디에서 실행되는지를 바탕으로 파이프라인 비용을 지불합니다. 자세한 내용은 AWS Data Pipeline 요금을 참조하세요.

AWS 계정을 만든 지가 12개월이 안 된 경우에는 프리 티어를 이용할 수 있습니다. 프리 티어에는 월간 3건의 저빈도 사전 조건 및 5건의 저빈도 활동 무상 이용권이 포함됩니다. 자세한 내용은 AWS 프리 티어 단원을 참조하십시오.