SUS04-BP05 불필요하거나 중복된 데이터 제거

불필요하거나 중복된 데이터를 제거하여 데이터 세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다.

일반적인 안티 패턴:

이 모범 사례 확립의 이점: 불필요한 데이터를 제거하면 워크로드 및 워크로드의 환경 영향에 필요한 스토리지 크기를 줄일 수 있습니다.

이 모범 사례를 따르지 않을 경우 노출되는 위험 수준: 보통

구현 가이드

필요하지 않은 데이터를 저장하지 않습니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 서비스의 네이티브 데이터 복제 및 중복성 기능을 활용합니다.

구현 단계

AWS Data Exchange의 기존 공개 데이터 세트 및 AWS의 개방형 데이터를 사용하여 데이터 저장을 방지할 수 있는지 여부를 평가합니다.

블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.

Storage service	Deduplication mechanism
Amazon S3	새로운 FindMatches ML Transform을 사용하여 데이터 세트 전체(식별자가 없는 것 포함)에서 일치하는 레코드를 찾으려면 AWS Lake Formation FindMatches를 사용합니다.
Amazon FSx	Amazon FSx for Windows에서 데이터 중복 제거를 활성화합니다.
Amazon Elastic Block Store 스냅샷	스냅샷은 증분식 백업입니다. 즉, 가장 최근 스냅샷 이후에 변경된 디바이스의 블록만 저장됩니다.

데이터 액세스를 분석하여 불필요한 데이터를 식별합니다. 수명 주기 정책을 자동화합니다. 삭제할 Amazon DynamoDB Time To Live, Amazon S3 수명 주기 또는 Amazon CloudWatch 로그 보존과 같은 네이티브 서비스 기능을 활용합니다.
AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다.
- AWS의 클라우드 네이티브 데이터 가상화
- 실습: Amazon Redshift 데이터 공유를 사용하여 데이터 패턴 최적화
증분식 백업을 만들 수 있는 백업 기술을 사용합니다.
Amazon S3의 내구성 및 Amazon EBS의 복제를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다.
로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다.
적절한 경우에만 캐시를 미리 채웁니다.
캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다.
새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다.

관련 문서:

관련 동영상:

관련 예시:

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

SUS04-BP04 탄력성 및 자동화 기능을 사용하여 블록 스토리지 또는 파일 시스템 확장

SUS04-BP06 공유 파일 시스템 또는 스토리지를 사용하여 공용 데이터에 액세스