SUS04-BP05 불필요하거나 중복된 데이터 제거 - AWS Well-Architected Framework

SUS04-BP05 불필요하거나 중복된 데이터 제거

불필요하거나 중복된 데이터를 제거하여 데이터 세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다.

일반적인 안티 패턴:

  • 쉽게 얻을 수 있거나 다시 생성할 수 있는 데이터를 중복합니다.

  • 데이터의 중요도를 고려하지 않고 모든 데이터를 백업합니다.

  • 데이터를 불규칙하게 또는 운영 이벤트에만 삭제하거나 전혀 삭제하지 않습니다.

  • 스토리지 서비스의 내구성에 관계없이 데이터를 중복 저장합니다.

  • 업무상 타당한 이유 없이 Amazon S3 버전 관리를 활성화합니다.

이 모범 사례 확립의 이점: 불필요한 데이터를 제거하면 워크로드 및 워크로드의 환경 영향에 필요한 스토리지 크기를 줄일 수 있습니다.

이 모범 사례를 따르지 않을 경우 노출되는 위험 수준: 보통

구현 가이드

필요하지 않은 데이터를 저장하지 않습니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 서비스의 네이티브 데이터 복제 및 중복성 기능을 활용합니다.

구현 단계

  • AWS Data Exchange의 기존 공개 데이터 세트 및 AWS의 개방형 데이터를 사용하여 데이터 저장을 방지할 수 있는지 여부를 평가합니다.

  • 블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.

    Storage service Deduplication mechanism

    Amazon S3

    새로운 FindMatches ML Transform을 사용하여 데이터 세트 전체(식별자가 없는 것 포함)에서 일치하는 레코드를 찾으려면 AWS Lake Formation FindMatches를 사용합니다.

    Amazon FSx

    Amazon FSx for Windows에서 데이터 중복 제거를 활성화합니다.

    Amazon Elastic Block Store 스냅샷

    스냅샷은 증분식 백업입니다. 즉, 가장 최근 스냅샷 이후에 변경된 디바이스의 블록만 저장됩니다.

  • 데이터 액세스를 분석하여 불필요한 데이터를 식별합니다. 수명 주기 정책을 자동화합니다. 삭제할 Amazon DynamoDB Time To Live, Amazon S3 수명 주기 또는 Amazon CloudWatch 로그 보존과 같은 네이티브 서비스 기능을 활용합니다.

  • AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다.

  • 증분식 백업을 만들 수 있는 백업 기술을 사용합니다.

  • Amazon S3의 내구성 및 Amazon EBS의 복제를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다.

  • 로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다.

  • 적절한 경우에만 캐시를 미리 채웁니다.

  • 캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다.

  • 새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다.

리소스

관련 문서:

관련 동영상:

관련 예시: