SUS04-BP05 불필요하거나 중복된 데이터 제거
불필요하거나 중복된 데이터를 제거하여 데이터세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다.
일반적인 안티 패턴:
-
쉽게 얻을 수 있거나 다시 생성할 수 있는 데이터를 중복합니다.
-
데이터의 중요도를 고려하지 않고 모든 데이터를 백업합니다.
-
데이터를 불규칙하게 또는 운영 이벤트에만 삭제하거나 전혀 삭제하지 않습니다.
-
스토리지 서비스의 내구성에 관계없이 데이터를 중복 저장합니다.
-
업무상 타당한 이유 없이 Amazon S3 버전 관리를 켭니다.
이 모범 사례 확립의 이점: 불필요한 데이터를 제거하면 워크로드에 필요한 스토리지 크기와 워크로드 환경에 미치는 영향이 줄어듭니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 중간
구현 가이드
불필요한 중복 데이터 세트를 제거하면 스토리지 비용과 환경 발자국을 줄일 수 있습니다. 컴퓨팅 리소스가 불필요한 데이터 대신 중요한 데이터만 처리하기 때문에 이 방식은 컴퓨팅을 더 효율적으로 만듭니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 네이티브 데이터 복제 및 중복성에 대한 서비스 기능을 사용합니다.
구현 단계
-
퍼블릭 데이터세트 평가: AWS Data Exchange
및 Open Data on AWS 에서 공개적으로 사용 가능한 기존 데이터세트를 사용하여 데이터를 저장하지 않아도 되는지 평가합니다. -
데이터 중복 제거: 블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.
스토리지 서비스 중복 제거 메커니즘 AWS Lake Formation FindMatches
를 사용하여 새로운 FindMatches ML 트랜스폼을 통해 데이터세트에서 일치하는 레코드(식별자가 없는 레코드 포함)를 찾습니다. Amazon FSx for Windows에서 데이터 중복 제거를 사용합니다.
스냅샷은 증분식 백업이어서 마지막 스냅샷 이후 변경된 디바이스의 블록만이 저장됩니다.
-
수명 주기 정책 사용: 수명 주기 정책을 사용하여 불필요한 데이터를 자동으로 삭제합니다. 삭제를 위해 Amazon DynamoDB Time To Live, Amazon S3 수명 주기 또는 Amazon CloudWatch 로그 보존과 같은 기본 서비스 기능을 사용합니다.
-
데이터 가상화 사용: AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다.
-
증분식 백업 사용: 증분식 백업을 만들 수 있는 백업 기술을 사용합니다.
-
네이티브 내구성 사용: Amazon S3의 내구성 및 Amazon EBS의 복제를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다.
-
효율적인 로깅 사용: 로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다.
-
효율적인 캐싱 사용: 합당한 상황에서만 캐시를 미리 채웁니다.
-
캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다.
-
오래된 버전의 자산 제거: 새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다.
리소스
관련 문서:
관련 비디오:
관련 예제: