모범 사례 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모범 사례

스토리지 및 기술 모범 사례를 따르는 것이 좋습니다. 이러한 모범 사례는 데이터 중심 아키텍처를 최대한 활용하는 데 도움이 될 수 있습니다.

빅 데이터에 대한 스토리지 모범 사례

다음 표에서는 Amazon S3에서 빅 데이터 처리 로드를 위한 파일을 저장하는 일반적인 모범 사례를 설명합니다. 마지막 열은 설정할 수 있는 수명 주기 정책의 예입니다. Amazon S3 Intelligent-Tiering이 활성화된 경우(데이터 액세스 패턴이 자동으로 변경될 때 자동 스토리지 비용 절감 제공) 정책을 수동으로 설정할 필요가 없습니다.

데이터 계층 이름

설명

수명 주기 정책 전략의 예

원시

처리되지 않은 원시 데이터 포함

참고: 외부 데이터 소스의 경우 원시 데이터 계층은 일반적으로 데이터의 1:1 복사본이지만 AWS에서는 수집 프로세스 중에 데이터를 AWS 리전 또는 날짜를 기반으로 키로 분할할 수 있습니다.

1년 후 파일을 S3 Standard-IA 스토리지 클래스로 이동합니다. S3 Standard-IA에서 2년 후 Amazon Simple Storage Service Glacier(Amazon S3 Glacier)에 파일을 보관합니다.

단계

사용량에 최적화된 중간 처리 데이터 포함

: CSV에서 Apache Parquet로 변환된 원시 파일 또는 데이터 변환

정의된 기간 이후에 또는 조직의 요구 사항에 따라 데이터를 삭제할 수 있습니다.

짧은 시간(예: 90일 후) 후에 데이터 레이크에서 일부 데이터 파생 항목(예: 원래 JSON 형식의 Apache Avro 변환)을 제거할 수 있습니다.

분석

특정 사용 사례에 대한 집계된 데이터를 사용 준비 형식으로 포함합니다.

: Apache Parquet

데이터를 S3 Standard-IA로 이동한 다음 정의된 기간 이후에 또는 조직의 요구 사항에 따라 데이터를 삭제할 수 있습니다.

다음 다이어그램은 모든 데이터 계층에서 사용할 수 있는 파티셔닝 전략(하나의 S3 폴더/접두사에 해당)의 예를 보여줍니다. 다운스트림에서 데이터를 사용하는 방식에 따라 파티셔닝 전략을 선택하는 것이 좋습니다. 예를 들어, 보고서가 데이터를 기반으로 구축된 경우(보고서의 가장 일반적인 쿼리가 리전 및 날짜를 기준으로 결과를 필터링하는 경우) 쿼리 성능과 런타임을 개선하기 위해 리전과 날짜를 파티션으로 포함해야 합니다.

파티셔닝 전략 다이어그램

기술 모범 사례

기술 모범 사례는 데이터 중심 아키텍처를 설계하는 데 사용하는 특정 AWS 서비스 및 처리 기술에 따라 달라집니다. 그러나 다음 모범 사례를 염두에 두는 것이 좋습니다. 이러한 모범 사례는 일반적인 데이터 처리 사용 사례에 적용됩니다.

영역

모범 사례

SQL

데이터에 속성을 프로젝션하여 쿼리해야 하는 데이터의 양을 줄입니다. 전체 테이블을 구문 분석하는 대신 데이터 프로젝션을 사용하여 테이블의 특정 필수 열만 스캔하고 반환할 수 있습니다.

여러 테이블 간의 조인은 리소스 집약적인 요구로 인해 성능에 큰 영향을 미칠 수 있으므로 가능하면 대규모 조인을 피합니다.

Apache Spark

AWS Glue(AWS 빅 데이터 블로그)에서 워크로드 파티셔닝으로 Spark 애플리케이션을 최적화합니다.

AWS Glue(AWS 빅 데이터 블로그)에서 메모리 관리를 최적화합니다.

데이터베이스 설계

아키텍처 데이터베이스 모범 사례(AWS 아키텍처 센터)를 따릅니다.

데이터 정리

에서 서버 측 파티션 정리를 사용합니다catalogPartitionPredicate.

스케일링

수평적 조정을 이해하고 구현합니다.