모범 사례 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모범 사례

보관된 데이터에 액세스할 때는 다음과 같은 모범 사례를 따르는 것이 좋습니다.

  • Amazon S3 Select 및 Amazon S3 Glacier Select는 기본 SQL 식을 사용하여 데이터의 하위 집합이 출력되는 경우에 적합합니다. Amazon S3를 프로그래밍 방식으로 쿼리하여 선택된 데이터 세트를 추출해야 하는 애플리케이션은 성능이 크게 향상되었으며, 대부분의 경우 400% 까지 향상됩니다. 자세한 내용은 블로그 게시물을 참조하십시오.S3 셀렉트 및 S3 글래시어 셀렉트 — 객체의 서브셋 검색.

  • S3 셀렉트와 S3 글래시어 셀렉트는 CSV, JSON 및 파켓 형식으로만 데이터 읽기를 지원합니다. ORC 또는 Avro와 같은 다른 개방형 형식의 경우 Amazon Athena 또는 Amazon Redshift를 사용할 수 있습니다.

  • 대규모 아카이브 데이터 세트의 경우 Athena 및 Amazon Redshift와 같은 쿼리 엔진을 사용하여 읽을 수 있도록 데이터 위에 AWS Glue 테이블을 생성하는 것이 좋습니다. Athena와 Amazon Redshift는 모두 쿼리 성능의 수평적 확장을 제공합니다. 그들은 또한 a를 사용합니다pay-per-query모델은 일회성 쿼리 시나리오에서 비용 효율적입니다. 또한 Amazon Redshift에는 추가 비용 없이 읽기 성능을 높이는 고급 쿼리 가속기 (AQUA) 엔진이 내장되어 있습니다.

  • Amazon S3에 정기적으로 오프로드되는 아카이브 데이터는 힙 덤프로 저장해서는 안 됩니다. 대신 새 파티션으로 저장해야 합니다. 날짜 파티션은 데이터를 날짜 차원으로 분리합니다 (예:year=<value>/month=<value>/day=<value>). 이는 다음과 같은 두 가지 상황에서 매우 유용합니다.

    • AWS Glue 크롤러가 AWS Glue 테이블을 생성한 경우 이러한 파티션은 유사 열 역할을 합니다. 이렇게 하면 스캔된 데이터가 범위 쿼리의 파티션으로 제한되어 읽기 성능이 향상됩니다.

    • 이렇게 하면 객체의 일부만 S3 스탠다드로 복원할 때 S3 Glacier 복원 작업에 도움이 됩니다.

  • AWS Glue 크롤러는 Amazon S3에 저장된 아카이브 데이터를 물리적으로 파티셔닝할 때 큰 가치를 발휘합니다. 해당 데이터가 새 접두사 파티션으로 오프로드될 때마다 크롤러는 새 파티션만 검색하고 해당 파티션의 메타데이터를 업데이트합니다. 테이블의 스키마가 변경되면 해당 변경 사항이 파티션 수준 메타데이터에 캡처됩니다.