SUS04-BP05 不要なデータや重複するデータを削除する

不要なデータや重複するデータを削除し、データセットの保存に必要なストレージリソースを最小限に抑えます。

一般的なアンチパターン:

このベストプラクティスを確立するメリット: 不要なデータを削除することで、ワークロードに必要なストレージサイズを縮小し、ワークロードの環境に対する影響も軽減します。

このベストプラクティスが確立されていない場合のリスクレベル: ミディアム

実装のガイダンス

不要なデータを保存しない。不要なデータの削除を自動化する。ファイルおよびブロックレベルでデータの重複を排除するテクノロジーを使用する。サービスのネイティブデータレプリケーションと冗長性機能を活用する。

実装手順

AWS Data Exchange およびOpen Data on AWSで公開されている既存のデータセットを利用することで、データの保存を回避できないかを評価します。

ブロックレベルとオブジェクトレベルでデータを重複排除できる仕組みを使用します。AWS でデータの重複をなくす方法の例を次に示します。

Storage service	Deduplication mechanism
Amazon S3	新しい FindMatches ML Transform を使用して、データセット全体 (識別子のないレコードを含む) で一致するレコードを検索するには、AWS Lake Formation FindMatches を使用します。
Amazon FSx	Windows 向けの Amazon FSx でデータ重複排除を有効にします。
Amazon Elastic Block Store スナップショット	スナップショットは増分バックアップです。つまり、直近のスナップショットの後に変更されたデバイス上のブロックのみが保存されます。

データアクセスを分析し、不要なデータを特定します。ライフサイクルポリシーを自動化します。削除のための Amazon DynamoDB 有効期限、Amazon S3 ライフサイクル、Amazon CloudWatch ログ保持などのネイティブサービス機能を活用します。
AWS のデータ仮想化機能を使用してデータをソースに保持し、データの重複を回避します。
- AWS でのクラウドネイティブデータ仮想化
- ラボ: Amazon Redshift データ共有を使用したデータパターンの最適化
増分バックアップが可能なバックアップテクノロジーを使用します。
セルフマネージドテクノロジー (RAID (Redundant Array of Independent Disks) など) の代わりに、Amazon S3 の耐久性と Amazon EBS のレプリケーションを活用して、耐久性の目標を達成します。
ログおよび追跡データを一元化し、同一のログエントリの重複を排除して、必要に応じて冗長性を調整するメカニズムを確立します。
キャッシュの事前入力は、正当な場合にのみ行います。
キャッシュのモニタリングとオートメーションを確立し、それに従ってキャッシュをサイズ変更します。
ワークロードの新しいバージョンをプッシュする際に、オブジェクトストアとエッジキャッシュから古いデプロイとアセットを削除します。

関連するドキュメント:

関連動画:

Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation (AWS Lake Formation の機械学習トランスフォームによるファジーマッチングとデータの重複排除)

関連する例:

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

SUS04-BP04 伸縮性とオートメーションを使用してブロックストレージまたはファイルシステムを拡張する

SUS04-BP06 共有ファイルシステムまたはストレージを使用して共通データにアクセスする