튜토리얼: Amazon S3에서 데이터 로드 - Amazon Redshift

튜토리얼: Amazon S3에서 데이터 로드

이 튜토리얼에서는 Amazon S3 버킷에 있는 데이터 파일에서 Amazon Redshift 데이터베이스 테이블로 데이터를 로드하는 프로세스를 처음부터 끝까지 살펴봅니다.

이 자습서에서는 다음 작업을 수행합니다.

  • 쉼표로 구분된 값(CSV) 형식, 문자로 구분된 형식, 고정 너비 형식을 사용하는 데이터 파일을 다운로드합니다.

  • Amazon S3 버킷을 생성한 다음 이 버킷에 데이터 파일을 업로드합니다.

  • Amazon Redshift 클러스터를 시작하고 데이터베이스 테이블을 생성합니다.

  • COPY 명령을 사용하여 Amazon S3의 데이터 파일에서 테이블을 로드합니다.

  • 로드 오류 문제를 해결하고 COPY 명령을 수정하여 오류를 수정합니다.

예상 소요 시간: 60분

예상 비용: 클러스터 시간당 $1.00

필수 조건

필요한 사전 조건은 다음과 같습니다.

  • Amazon Redshift 클러스터를 시작하고 Amazon S3에 버킷을 생성하기 위한 AWS 계정.

  • Amazon S3에서 테스트 데이터를 로드하기 위한 AWS 자격 증명(IAM 역할). 새로운 IAM 역할이 필요한 경우 IAM 역할 생성으로 이동합니다.

  • Amazon Redshift 콘솔 쿼리 편집기와 같은 SQL 클라이언트.

이 자습서는 자습서만으로 학습이 가능하도록 만들어졌습니다. Amazon Redshift 데이터베이스의 설계 및 사용 방법을 더 깊이 이해하려면 이 튜토리얼 외에 다음 튜토리얼을 공부하는 것이 좋습니다.

개요

INSERT 명령 또는 COPY 명령을 사용하여 Amazon Redshift 테이블에 데이터를 추가할 수 있습니다. Amazon Redshift 데이터 웨어하우스의 규모와 속도에서는 COPY 명령이 INSERT 명령보다 몇 배 더 빠르고 효율적입니다.

COPY 명령은 Amazon Redshift 대량 병렬 처리(MPP) 아키텍처를 사용하여 여러 데이터 원본에서 병렬로 데이터를 읽고 로드합니다. Amazon S3, Amazon EMR 또는 SSH(Secure Shell) 연결을 통해 액세스 가능한 원격 호스트에 있는 데이터 파일에서 로드할 수 있습니다. 또는 Amazon DynamoDB 테이블에서 직접 로드할 수 있습니다.

이 튜토리얼에서는 COPY 명령을 사용하여 Amazon S3에서 데이터를 로드합니다. 여기 설명된 여러 원리는 다른 데이터 원본에서의 로드에도 적용됩니다.

COPY 명령을 사용하는 방법에 대해 자세히 알아보려면 다음 리소스를 참조하십시오.

Steps