AWS Data Pipeline 시작하기 - AWS Data Pipeline

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Data Pipeline 시작하기

AWS Data Pipeline은 반복되는 데이터 처리 워크로드의 순서, 일정, 실행을 확실하고 경제적으로 관리하는 데 도움이 됩니다. 이 서비스는 비즈니스 논리에 기반하는 온프레미스와 클라우드 모두에서 정형 및 비정형 데이터를 사용하여 ETL(extract-transform-load: 추출-변환-로드) 활동을 쉽게 설계할 수 있게 해줍니다.

AWS Data Pipeline을 사용하려면 데이터 처리용 비즈니스 논리를 지정하는 파이프라인 정의를 생성합니다. 일반적인 파이프라인 정의는 실행할 작업을 정의하는 활동, 입력 및 출력 데이터의 위치와 유형을 정의하는 데이터 노드, 활동 실행 시점을 정하는 일정으로 구성됩니다.

이 자습서에서는 Apache 웹 서버 로그에서 GET 요청 수를 계산하는 셸 명령 스크립트를 실행합니다. 이 파이프라인은 1시간 동안 15분마다 실행되며, 반복될 때마다 Amazon S3로 출력을 기록합니다.

필수 조건

시작하기 전에 에 대한 설정 AWS Data Pipeline의 작업을 완료해야 합니다.

파이프라인 객체

파이프라인은 다음 객체를 사용합니다.

ShellCommandActivity

입력 로그 파일을 읽고 오류 수를 계산합니다.

S3 DataNode (입력)

입력 로그 파일이 있는 S3 버킷입니다.

S3 DataNode (출력)

출력용 &S3 버킷입니다.

Ec2Resource

AWS Data Pipeline이 활동을 실행할 때 사용하는 컴퓨팅 리소스입니다.

대량의 로그 파일 데이터가 있는 경우에는 EC2 인스턴스 대신 EMR 클러스터를 사용하여 파일을 처리하도록 파이프라인을 구성할 수 있습니다.

일정

1시간 동안 15분마다 활동을 실행하는 것으로 정의합니다.

파이프라인 생성

AWS Data Pipeline을 시작하는 가장 빠른 방법은 템플릿이라고 하는 파이프라인 정의를 사용하는 것입니다.

파이프라인을 생성하려면
  1. https://console.aws.amazon.com/datapipeline/에서 AWS Data Pipeline 콘솔을 엽니다.

  2. 탐색 모음에서 리전을 선택합니다. 현재 위치와 관계없이 사용자가 고를 수 있는 리전을 임의로 선택합니다. 대부분의 AWS 리소스는 리전에 따라 다르지만 AWS Data Pipeline을 사용하면 파이프라인과 다른 리전에 있는 리소스를 사용할 수 있습니다.

  3. 처음 표시되는 화면은 현재 리전에서 파이프라인을 생성했는지 여부에 따라 달라집니다.

    1. 이 리전에서 파이프라인을 생성하지 않았다면 콘솔에 소개 화면이 표시됩니다. 지금 시작을 선택합니다.

    2. 이 리전에서 이미 파이프라인을 생성했다면 해당 리전의 파이프라인이 나열된 페이지가 콘솔에 표시됩니다. Create new pipeline(새 파이프라인 생성)을 선택합니다.

  4. 이름에 파이프라인 이름을 입력합니다.

  5. (선택 사항) 설명에 파이프라인에 대한 설명을 입력합니다.

  6. 소스의 경우는 [Build using a template]을 선택한 후 다음 템플릿 [Getting Started using ShellCommandActivity]를 선택합니다.

  7. 템플릿을 선택할 때 열린 [Parameters] 부분 아래의 [S3 input foler] 및 [Shell command to run]은 기본값을 유지합니다. [S3 output folder] 옆의 폴더 아이콘을 클릭하고, 버킷 또는 폴더 중 하나를 선택한 다음 [Select]를 클릭합니다.

  8. [Schedule] 아래의 기본값을 그대로 둡니다. 파이프라인을 활성화하면 파이프라인 실행이 시작된 후 1시간 동안 15분마다 실행합니다.

    원할 경우 [Run once on pipeline activation]을 선택할 수도 있습니다.

  9. Pipeline Configuration(파이프라인 구성)에서 로깅을 활성화된 상태로 두십시오. S3 location for logs(로그의 S3 위치) 아래의 폴더 아이콘을 선택하고 버킷이나 폴더 중 하나를 선택한 후 선택을 선택합니다.

    원하는 경우, 로깅을 대신 비활성화할 수 있습니다.

  10. Security/Access(보안/액세스)에서 IAM 역할 설정을 기본값으로 유지합니다.

  11. [Activate]를 클릭합니다.

    필요하면 Edit in Architect(아키텍트에서 편집)를 선택하여 이 파이프라인을 수정합니다. 예를 들어 사전 조건을 추가할 수 있습니다.

실행 중인 파이프라인 모니터링

파이프라인을 활성화하고 나면 파이프라인 진행률을 모니터링할 수 있는 실행 세부 정보 페이지로 이동하게 됩니다.

파이프라인 진행률을 모니터링하려면
  1. [Update ]를 클릭하거나 F5를 눌러 표시된 상태를 업데이트합니다.

    작은 정보

    열거된 실행이 없는 경우, [Start (in UTC)]와 [End (in UTC)]에 파이프라인의 예약된 시작 및 종료가 포함되는지 확인한 다음 [Update]를 클릭합니다.

  2. 파이프라인에 있는 모든 객체의 상태가 FINISHED가 되면 파이프라인이 예약된 작업을 성공적으로 완료한 것입니다.

  3. 파이프라인이 성공적으로 완료되지 않으면 파이프라인 설정에서 문제를 확인하십시오. 실패하거나 완료되지 않은 파이프라인 인스턴스 실행 문제 해결에 대한 자세한 내용은 공통 문제 해결 단원을 참조하십시오.

출력 검토

Amazon S3 콘솔을 열고 버킷으로 이동합니다. 파이프라인을 한 시간 동안 15분마다 실행한 경우 타임스탬프가 지정된 하위 폴더 4개가 표시됩니다. 각 하위 폴더에는 이름이 output.txt인 파일의 출력이 포함되어 있습니다. 매번 동일한 입력 파일에서 스크립트를 실행했기 때문에 출력 파일이 동일합니다.

파이프라인 삭제

요금이 발생하는 것을 중지하려면 파이프라인을 삭제하십시오. 파이프라인을 삭제하면 파이프라인 정의 및 연결된 모든 객체가 삭제됩니다.

파이프라인을 삭제하려면
  1. List Pipelines(파이프라인 나열) 페이지에서 파이프라인을 선택합니다.

  2. 작업을 클릭한 후 삭제를 선택합니다.

  3. 확인 메시지가 나타나면 Delete(삭제)를 선택합니다.

이 자습서의 출력으로 끝난 경우에는 Amazon S3 버킷의 출력 폴더를 삭제하십시오.