AWS클라우드의 데이터 레이크 레이어에 대한 S3 버킷 및 경로 이름 정의 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS클라우드의 데이터 레이크 레이어에 대한 S3 버킷 및 경로 이름 정의

이사벨 아이맥셍, 사무엘 슈미트, 안드레스 캔터, Amazon Web Services (AWS)

2021년 11월 (문서 기록)

이 가이드는 Amazon Storage (Amazon Storage Service) (Amazon Storage Service) (Amazon Storage Simple Storage Service (Amazon S3) 버킷과 Amazon Web Services (AWS) 클라우드에서 호스팅되는 데이터 레이크의 경로를 위한 일관된 이름 지정 표준을 만드는 데 도움이 됩니다. 이 가이드의 S3 버킷 및 경로에 대한 명명 표준은 데이터 레이크의 거버넌스 및 가시성을 개선하고, 데이터 계층별 비용을 식별하는 데 도움이 되며AWS 계정, 이름 지정AWS Identity and Access Management (IAM) 역할 및 정책에 대한 접근 방식을 제공합니다.

데이터 레이크에 데이터 계층을 3개 이상 사용하고 각 계층이 별도의 S3 버킷을 사용하는 것이 좋습니다. 하지만 생성 및 저장하는 데이터 유형에 따라 일부 사용 사례에는 추가 S3 버킷 및 데이터 계층이 필요할 수 있습니다. 예를 들어 민감한 데이터를 저장하는 경우 landing zone 데이터 계층과 별도의 S3 버킷을 사용하는 것이 좋습니다. 다음 목록은 데이터 레이크에 권장되는 세 가지 데이터 계층을 설명합니다.

  • 원시 데이터 계층 - 원시 데이터를 포함하며 데이터가 처음 수집되는 계층입니다. 가능하면 원본 파일 형식을 유지하고 S3 버킷에서 버전 관리를 활성화하는 것이 좋습니다.

  • 스테이지 데이터 계층 - 사용에 최적화된 중간 처리된 데이터 (예: CSV에서 Apache Parquet으로 변환된 원시 파일 또는 데이터 변환) 를 포함합니다. AWS Glue작업은 원시 레이어에서 파일을 읽고 데이터의 유효성을 검사합니다. 그런 다음AWS Glue 작업은 데이터를 Apache Parquet 형식 파일에 저장하고 메타데이터는AWS Glue 데이터 카탈로그의 테이블에 저장됩니다.

  • 분석 데이터 계층 — 특정 사용 사례에 대한 집계된 데이터를 바로 사용할 수 있는 형식 (예: Apache Parquet) 으로 포함합니다.

이 가이드의 권장 사항은 서버리스 데이터 레이크 프레임워크 (SDLF) 를 사용하여 데이터 레이크를 구현한 작성자의 경험을 기반으로 하며 에서 데이터 레이크를 설정하려는 데이터 아키텍트, 데이터 엔지니어 또는 솔루션 아키텍트를 대상으로AWS 클라우드 합니다. 그러나 조직의 정책 및 요구 사항에 맞게 이 가이드의 접근 방식을 조정해야 합니다.

가이드는 다음 섹션을 포함하고 있습니다.

목표 비즈니스 결과

AWS클라우드의 데이터 레이크에 있는 S3 버킷 및 경로에 대한 이름 지정 표준을 구현한 후에는 다음과 같은 다섯 가지 결과를 기대할 수 있습니다.

  • 데이터 레이크의 거버넌스 및 옵저버빌리티가 개선되었습니다.

  • S3 버킷 이름에 관련AWS 계정 ID를AWS 계정 사용하여 개인의 전체 비용을 파악하고, S3 버킷에 비용 할당 태그를 사용하여 데이터 계층에 대한 가시성을 높였습니다.

  • 계층 기반 버전 관리 및 경로 기반 수명 주기 정책을 사용하여 보다 비용 효율적인 데이터 스토리지를 제공합니다.

  • 데이터 마스킹 및 데이터 암호화에 대한 보안 요구 사항을 충족합니다.

  • 기본 데이터 스토리지에 대한 개발자 가시성을 향상시켜 데이터 소스 추적을 간소화합니다.AWS 리전AWS 계정