SUS04-BP05 불필요하거나 중복된 데이터 제거

불필요하거나 중복된 데이터를 제거하여 데이터세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다.

일반적인 안티 패턴:

쉽게 얻을 수 있거나 다시 생성할 수 있는 데이터를 중복합니다.
데이터의 중요도를 고려하지 않고 모든 데이터를 백업합니다.
데이터를 불규칙하게 또는 운영 이벤트에만 삭제하거나 전혀 삭제하지 않습니다.
스토리지 서비스의 내구성에 관계없이 데이터를 중복 저장합니다.
업무상 타당한 이유 없이 Amazon S3 버전 관리를 켭니다.

이 모범 사례 확립의 이점: 불필요한 데이터를 제거하면 워크로드에 필요한 스토리지 크기와 워크로드 환경에 미치는 영향이 줄어듭니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 중간

구현 가이드

불필요한 중복 데이터 세트를 제거하면 스토리지 비용과 환경 발자국을 줄일 수 있습니다. 컴퓨팅 리소스가 불필요한 데이터 대신 중요한 데이터만 처리하기 때문에 이 방식은 컴퓨팅을 더 효율적으로 만듭니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 네이티브 데이터 복제 및 중복성에 대한 서비스 기능을 사용합니다.

구현 단계

퍼블릭 데이터세트 평가: AWS Data Exchange 및 Open Data on AWS에서 공개적으로 사용 가능한 기존 데이터세트를 사용하여 데이터를 저장하지 않아도 되는지 평가합니다.

데이터 중복 제거: 블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.

스토리지 서비스	중복 제거 메커니즘
Amazon S3	AWS Lake Formation FindMatches를 사용하여 새로운 FindMatches ML 트랜스폼을 통해 데이터세트에서 일치하는 레코드(식별자가 없는 레코드 포함)를 찾습니다.
Amazon FSx	Amazon FSx for Windows에서 데이터 중복 제거를 사용합니다.
Amazon Elastic Block Store 스냅샷	스냅샷은 증분식 백업이어서 마지막 스냅샷 이후 변경된 디바이스의 블록만이 저장됩니다.

수명 주기 정책 사용: 수명 주기 정책을 사용하여 불필요한 데이터를 자동으로 삭제합니다. 삭제를 위해 Amazon DynamoDB Time To Live, Amazon S3 수명 주기 또는 Amazon CloudWatch 로그 보존과 같은 기본 서비스 기능을 사용합니다.
데이터 가상화 사용: AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다.
- Cloud Native Data Virtualization on AWS
- Optimize Data Pattern Using Amazon Redshift Data Sharing
증분식 백업 사용: 증분식 백업을 만들 수 있는 백업 기술을 사용합니다.
네이티브 내구성 사용: Amazon S3의 내구성 및 Amazon EBS의 복제를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다.
효율적인 로깅 사용: 로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다.
효율적인 캐싱 사용: 합당한 상황에서만 캐시를 미리 채웁니다.
캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다.
오래된 버전의 자산 제거: 새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다.

리소스

관련 문서:

관련 비디오:

Amazon Redshift Data Sharing Use Cases

관련 예제:

Amazon Athena를 사용하여 Amazon S3 서버 액세스 로그를 분석하려면 어떻게 해야 하나요?

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

SUS04-BP04 탄력성 및 자동화 기능을 사용하여 블록 스토리지 또는 파일 시스템 확장

SUS04-BP06 공유 파일 시스템 또는 스토리지를 사용하여 공용 데이터에 액세스