SUS04-BP05 불필요하거나 중복된 데이터 제거
불필요하거나 중복된 데이터를 제거하여 데이터 세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다.
일반적인 안티 패턴:
-
쉽게 얻을 수 있거나 다시 생성할 수 있는 데이터를 중복합니다.
-
데이터의 중요도를 고려하지 않고 모든 데이터를 백업합니다.
-
데이터를 불규칙하게 또는 운영 이벤트에만 삭제하거나 전혀 삭제하지 않습니다.
-
스토리지 서비스의 내구성에 관계없이 데이터를 중복 저장합니다.
-
업무상 타당한 이유 없이 Amazon S3 버전 관리를 활성화합니다.
이 모범 사례 확립의 이점: 불필요한 데이터를 제거하면 워크로드 및 워크로드의 환경 영향에 필요한 스토리지 크기를 줄일 수 있습니다.
이 모범 사례를 따르지 않을 경우 노출되는 위험 수준: 보통
구현 가이드
필요하지 않은 데이터를 저장하지 않습니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 서비스의 네이티브 데이터 복제 및 중복성 기능을 활용합니다.
구현 단계
-
AWS Data Exchange
의 기존 공개 데이터 세트 및 AWS의 개방형 데이터 를 사용하여 데이터 저장을 방지할 수 있는지 여부를 평가합니다. -
블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.
Storage service Deduplication mechanism 새로운 FindMatches ML Transform을 사용하여 데이터 세트 전체(식별자가 없는 것 포함)에서 일치하는 레코드를 찾으려면 AWS Lake Formation FindMatches
를 사용합니다. Amazon FSx for Windows에서 데이터 중복 제거를 활성화합니다.
스냅샷은 증분식 백업입니다. 즉, 가장 최근 스냅샷 이후에 변경된 디바이스의 블록만 저장됩니다.
-
데이터 액세스를 분석하여 불필요한 데이터를 식별합니다. 수명 주기 정책을 자동화합니다. 삭제할 Amazon DynamoDB Time To Live, Amazon S3 수명 주기 또는 Amazon CloudWatch 로그 보존과 같은 네이티브 서비스 기능을 활용합니다.
-
AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다.
-
증분식 백업을 만들 수 있는 백업 기술을 사용합니다.
-
Amazon S3의 내구성 및 Amazon EBS의 복제를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다.
-
로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다.
-
적절한 경우에만 캐시를 미리 채웁니다.
-
캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다.
-
새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다.
리소스
관련 문서:
관련 동영상:
관련 예시: