열 기반 데이터 형식에서 COPY 명령 - Amazon Redshift

열 기반 데이터 형식에서 COPY 명령

COPY는 Amazon S3에서 다음과 같은 열 기반 형식의 데이터를 불러올 수 있습니다.

  • ORC

  • PARQUET

열 데이터 형식에서 COPY를 사용하는 예는 COPY 예 섹션을 참조하세요.

COPY는 열 기반 형식 데이터를 지원하지만 다음과 같은 고려 사항이 있습니다.

  • Amazon S3 버킷이 Amazon Redshift 데이터베이스와 동일한 AWS 리전에 있어야 합니다.

  • VPC 엔드포인트를 통해 Amazon S3 데이터에 액세스하려면 Amazon Redshift 관리 가이드Enhanced VPC Routing과 함께 Amazon Redshift Spectrum 사용에 설명된 대로 IAM 정책과 IAM 역할을 사용하여 액세스를 설정합니다.

  • COPY는 압축 인코딩을 자동으로 적용하지 않습니다.

  • 다음과 같은 COPY 파라미터만 지원됩니다.

  • COPY 명령을 실행하여 불러오는 중 오류가 발생하면 명령이 실패합니다. 열 기반 데이터 유형의 경우 ACCEPTANYDATE 및 MAXERROR가 지원되지 않습니다.

  • 오류 메시지는 SQL 클라이언트로 전송됩니다. 일부 오류는 STL_LOAD_ERRORS 및 STL_ERROR에 기록됩니다.

  • COPY 명령은 열 기반 데이터 파일의 열 순서와 동일하게 대상 테이블의 열에 값을 삽입합니다. 대상 테이블의 열 수와 데이터 파일의 열 수는 일치해야 합니다.

  • COPY 작업에 대해 지정한 파일에 다음 확장자 중 하나가 포함되어 있는 경우 파라미터를 추가하지 않고 데이터의 압축을 해제할 수 있습니다.

    • .gz

    • .snappy

    • .bz2

  • Parquet 및 ORC 파일 형식에서 COPY는 Redshift Spectrum과 버킷 액세스를 사용합니다. 이러한 형식에 COPY를 사용하려면 Amazon S3의 미리 서명된 URL 사용을 차단하는 IAM 정책이 없어야 합니다. Amazon Redshift에서 생성한 미리 서명된 URL은 1시간 동안 유효하므로 Amazon Redshift가 충분한 시간을 갖고 Amazon S3 버킷에서 모든 파일을 로드할 수 있습니다. 열 기반 데이터 형식에서 COPY로 스캔한 각 파일에 대해 미리 서명된 고유한 URL이 생성됩니다. s3:signatureAge 작업이 포함된 버킷 정책의 경우 값을 최소 3,600,000밀리초로 설정해야 합니다. 자세한 내용은 Enhanced VPC Routing과 함께 Amazon Redshift Spectrum 사용 섹션을 참조하세요.