AWS Data Pipeline을 사용하여 반복 Amazon EMR 클러스터 자동화

AWS Data Pipeline 는 데이터의 이동과 변환을 자동화하는 서비스입니다. 이를 사용하여 입력 데이터를 Amazon S3로 이동하도록 예약하고, 실행 중인 클러스터가 해당 데이터를 처리하도록 예약할 수 있습니다. 예를 들어, 트래픽 로그를 기록하는 웹 서버가 있는 경우를 고려해보십시오. 주간 클러스터를 실행하여 트래픽 데이터를 분석하려는 경우를 사용하여 해당 클러스터 AWS Data Pipeline 를 예약할 수 있습니다. AWS Data Pipeline 는 데이터 기반 워크플로이므로 한 작업(클러스터 시작)이 다른 작업(입력 데이터를 Amazon S3로 이동)에 종속될 수 있습니다. 또한 강력한 재시도 기능을 제공합니다.

에 대한 자세한 내용은 AWS Data Pipeline 개발자 안내서, 특히 Amazon EMR에 대한 자습서를 AWS Data Pipeline참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클러스터 복제

Amazon EMR 자습서