데이터 레이크 계층의 Amazon S3 버킷 및 경로 이름 정의

Andres Cantor, Amazon Web Services

2025년 4월(문서 기록)

이 가이드는에서 호스팅되는 데이터 레이크의 Amazon Simple Storage Service(Amazon S3) 버킷 및 경로에 대한 일관된 이름 지정 표준을 생성하는 데 도움이 됩니다 AWS 클라우드. 이 가이드의 Amazon S3 버킷 및 경로에 대한 이름 지정 표준은 데이터 레이크의 거버넌스 및 관찰성을 개선하고, 데이터 계층별로 비용을 식별하고 AWS 계정, 이름 지정 AWS Identity and Access Management (IAM) 역할 및 정책에 대한 접근 방식을 제공하는 데 도움이 됩니다.

데이터 레이크에 최소 3개의 데이터 계층을 사용하고 각 계층은 별도의 Amazon S3 버킷을 사용하는 것이 좋습니다. 그러나 일부 사용 사례에서는 생성 및 저장하는 데이터 유형에 따라 추가 Amazon S3 버킷 및 데이터 계층이 필요할 수 있습니다. 예를 들어 민감한 데이터를 저장하는 경우 랜딩 존 데이터 계층과 별도의 Amazon S3 버킷을 사용하는 것이 좋습니다. 다음 목록은 데이터 레이크에 권장되는 세 가지 데이터 계층을 설명합니다.

원시 데이터 계층 - 원시 데이터를 포함하며 데이터가 처음 수집되는 계층입니다. 가능하면 원본 파일 형식을 유지하고 Amazon S3 버킷에서 버전 관리를 활성화하는 것이 좋습니다.
스테이지 데이터 계층 - 사용량에 최적화된 중간 처리 데이터를 포함합니다(예: CSV에서 Apache Parquet으로 변환된 원시 파일 또는 데이터 변환). AWS Glue 작업은 원시 계층에서 파일을 읽고 데이터를 검증합니다. 그런 다음 AWS Glue 작업은 Apache Parquet 형식의 파일에 데이터를 저장하고 메타데이터는의 테이블에 저장됩니다 AWS Glue Data Catalog.
분석 데이터 계층 - 특정 사용 사례에 대한 집계된 데이터를 Apache Parquet과 같은 소비 지원 형식으로 포함합니다.

수강 대상

이 가이드의 권장 사항은 서버리스 데이터 레이크 프레임워크(SDLF)를 사용하여 데이터 레이크를 구현한 작성자의 경험을 기반으로 하며에서 데이터 레이크를 설정하려는 데이터 아키텍트, 데이터 엔지니어 또는 솔루션 아키텍트를 대상으로 합니다 AWS 클라우드. 그러나 조직의 정책 및 요구 사항에 맞게이 가이드의 접근 방식을 조정해야 합니다.

이 가이드에는 다음 섹션이 포함되어 있습니다.

목표 비즈니스 성과

의 데이터 레이크에서 Amazon S3 버킷 및 경로에 대한 이름 지정 표준을 구현한 후 AWS 클라우드다음 결과를 기대해야 합니다.

버킷에 차별화된 액세스 정책을 제공할 수 있어 데이터 레이크의 거버넌스 개선
Amazon S3 버킷 이름의 관련 AWS 계정 ID를 AWS 계정 사용하고 버킷에 대한 비용 할당 태그를 사용하여 데이터 계층에 대한 전체 비용에 대한 가시성 향상
계층 기반 버전 관리 및 경로 기반 수명 주기 정책을 사용하여 비용 효율적인 데이터 스토리지
데이터 마스킹 및 데이터 암호화에 대한 보안 요구 사항 충족
AWS 계정 기본 데이터 스토리지의 AWS 리전 및에 대한 개발자 가시성을 높여 데이터 소스 추적 간소화

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

권장 데이터 계층