データ重複除外 - Amazon FSx for Windows ファイルサーバー

データ重複除外

大規模なデータセットは冗長なデータを持つことが多く、データストレージのコストが増加します。例えば、ユーザーファイル共有を使用すると、複数のユーザーが同じファイルの複数のコピーまたはバージョンを保存できます。ソフトウェア開発共有では、多くのバイナリは構築から構築まで変更されません。

ファイルシステムのデータ重複排除をオンにすることで、データストレージのコストを削減できます。データ重複除外 はデータセットの重複した部分を 1 回のみ保存することで、冗長データを削減または排除します。データ重複除外を使用すると、データ圧縮がデフォルトで有効になり、重複除外後にデータを圧縮することで、データストレージの量をさらに削減できます。データ重複除外は、ファイルシステムを継続的に自動的にスキャンして最適化するバックグラウンドプロセスとして実行され、ユーザーや接続されたクライアントに対して透過的に実行されます。

データ重複除外によって達成できるストレージの節約は、ファイル間で重複する量など、データセットの性質によって異なります。一般的な汎用ファイル共有では、平均 50~60% 削減されます。共有内では、ユーザードキュメントの 30~50% からソフトウェア開発データセットの 70~80% が節約範囲です。重複除外による節約の可能性を測定するには、以下に説明する Measure-FSxDedupFileMetadata コマンドを使用します。

また、特定のストレージニーズに合わせてデータ重複除外をカスタマイズすることもできます。例えば、特定のファイルタイプでのみ実行するように重複除外を設定したり、カスタムジョブスケジュールを作成したりできます。重複除外ジョブはファイルサーバリソースを消費することがあるため、以下に説明する Get-FSxDedupStatus コマンドを使用して重複除外ジョブのステータスをモニタリングすることをお勧めします。

データ重複除外の詳細については、Microsoft の「データ重複除外について」ドキュメントを参照してください。

注記

データ重複除外ジョブを正常に実行している際に問題が発生した場合は、「データ重複排除のトラブルシューティング」を参照してください。

データ重複除外の有効化

Amazon FSx for Windows ファイルサーバーファイル共有でデータ重複除外を有効にするには、次のように Enable-FSxDedup コマンドを使用します。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

データ重複除外を有効にすると、デフォルトのスケジュールと設定が作成されます。以下のコマンドを使用して、スケジュールと設定を作成、変更、削除できます。

新しいカスタム重複除外ジョブスケジュールを作成しても、既存のデフォルトスケジュールが上書きされたり、削除されたりすることはありません。デフォルトのジョブが不要な場合は、カスタム重複除外ジョブを作成する前に無効にすることができます。

Disable-FSxDedup コマンドを使用して、ファイルシステムのデータ重複除外を完全に無効化できます。

注記

ファイルシステムのストレージ容量を増やすと、Amazon FSx は、古いディスクから新しい大きなディスクにデータを移行するストレージ最適化プロセス中に、既存のデータ重複除外ジョブをキャンセルします。この期間中、OptimizedFilesSavingsRate 値は 0 です。Amazon FSx は、ストレージ容量の増加最適化ジョブが完了すると、データ重複除外を再開します。ストレージ容量の増加やストレージの最適化については、「ストレージ容量の管理」を参照してください。

データ重複除外スケジュールの作成

デフォルトのスケジュールはほとんどの場合うまく機能しますが、次のように New-FsxDedupSchedule コマンドを使用して、新しい重複除外スケジュールを作成することができます。データ重複除外スケジュールでは UTC 時間が使用されます。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

このコマンドは CustomOptimization という名前のスケジュールを作成します。これは、月曜日、水曜日、土曜日に実行され、毎日午前 8:00 (UTC) にジョブを開始し、最大期間は 7 時間で、ジョブがまだ実行されている場合はジョブを停止します。

データ重複除外スケジュールの変更

次のように Set-FsxDedupSchedule コマンドを使用して、既存の重複除外スケジュールを変更できます。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

このコマンドは、既存の CustomOptimization スケジュールを修正します。これは、月曜日から水曜日と土曜日の日に実行され、毎日午前 9:00 (UTC) にジョブを開始し、最大期間は 9 時間で、ジョブがまだ実行されている場合はジョブを停止します。

最適化前のファイルの最小保存期間を変更するには、Set-FSxDedupConfiguration コマンドを使用します。

保存スペースの量の表示

データ重複除外を実行することで節約するディスク容量を表示するには、次のように Get-FSxDedupStatus コマンドを使用します。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注記

Capacity、FreeSpace、UsedSpace、UnoptimizedSize、SavingsRate のパラメータに対するコマンドレスポンスに表示される値は信頼できないため、使用しないでください。

データ重複除外の管理

PowerShell でのリモート管理用の Amazon FSx CLI を使用して、ファイルシステム上のデータ重複除外を管理できます。この CLI を使用する方法については、「PowerShell でのリモート管理のための Amazon FSx CLI の使用を開始する」を参照してください。

データ重複除外に使用できるコマンドは次のとおりです。

データ重複除外コマンド 説明

Enable-FSxDedup

ファイル共有でデータ重複除外を有効にします。データ重複除外を有効にすると、重複除外後のデータ圧縮がデフォルトで有効になります。

Disable-FSxDedup

ファイル共有のデータ重複除外を無効にします。

Get-FSxDedupConfiguration

最適化の最小ファイルサイズと保存期間、圧縮設定、除外されたファイルタイプとフォルダなど、重複除外設定情報を取得します。

Set-FSxDedupConfiguration

最適化の最小ファイルサイズと保存期間、圧縮設定、除外されたファイルタイプとフォルダなど、重複除外の設定を変更します。

Get-FSxDedupStatus

重複除外ステータスを取得し、ファイルシステムの最適化の節約とステータス、時間、ファイルシステム上の最後のジョブの完了ステータスを説明する読み取り専用プロパティを含めます。

Get-FSxDedupMetadata

重複除外最適化メタデータを取得します。

Update-FSxDedupStatus

更新されたデータ重複除外の節約情報を計算して取得します。

Measure-FSxDedupFileMetadata

フォルダのグループを削除した場合に、ファイルシステム上で再利用できる潜在的なストレージ領域を測定および取得します。多くの場合、ファイルには他のフォルダ間で共有されるチャンクがあり、重複除外エンジンは一意で削除されるチャンクを計算します。

Get-FSxDedupSchedule

現在定義されている重複除外スケジュールを取得します。

New-FSxDedupSchedule

データ重複除外スケジュールを作成およびカスタマイズします。

Set-FSxDedupSchedule

既存のデータ重複除外スケジュールの設定を変更します。

Remove-FSxDedupSchedule

重複除外スケジュールを削除します。

Get-FSxDedupJob

現在実行中またはキューに入っているすべての重複除外ジョブのステータスと情報を取得します。

Stop-FSxDedupJob

指定したデータ重複除外ジョブを 1 つ以上キャンセルします。

各コマンドのオンラインヘルプには、すべてのコマンドオプションのリファレンスが記載されています。このヘルプにアクセスするには、-? (例えば、Enable-FSxDedup -?) コマンドを実行します。