カタログレベルのテーブルオプティマイザー
1 回限りのカタログ設定では、AWS Glue Data Catalog にあるすべての新規および更新された Apache Iceberg テーブルに対して、圧縮、スナップショット保持、孤立ファイル削除などの自動オプティマイザーを設定できます。カタログレベルのオプティマイザー設定を使用すると、カタログ内のすべてのテーブルに一貫したオプティマイザー設定を適用できるため、テーブルごとにオプティマイザーを個別に設定する必要がなくなります。
データレイクの管理者は、Lake Formation コンソールでデフォルトのカタログを選択し、Table optimization
オプションを使用してオプティマイザーを有効にすることで、統計の生成を設定できます。Data Catalog で新しいテーブルを作成したり、既存のテーブルを更新したりすると、Data Catalog はテーブルの最適化を自動的に実行して運用上の負担を軽減します。
テーブルレベルで最適化を設定した場合、またはテーブルのテーブル最適化設定を以前に削除した場合、それらのテーブル固有の設定は、テーブル最適化のデフォルトのカタログ設定よりも優先されます。設定パラメータがテーブルレベルまたはカタログレベルで定義されていない場合、Iceberg テーブルプロパティ値が適用されます。この設定は、スナップショットの保持および孤立ファイルの削除オプティマイザーに適用されます。
カタログレベルのオプティマイザーを有効にするときは、次の点を考慮してください。
-
カタログの作成時に最適化設定を行い、その後 Update Catalog リクエストを通じて最適化を無効にすると、オペレーションはカタログ内のすべてのテーブルにカスケードします。
-
特定のテーブルにオプティマイザーを既に設定している場合、カタログレベルで無効化オペレーションを行ってもこのテーブルには影響しません。
-
カタログレベルでオプティマイザーを無効にすると、既存のオプティマイザー設定を持つテーブルは特定の設定を維持し、カタログレベルの変更の影響を受けません。ただし、独自のオプティマイザー設定がないテーブルは、カタログレベルから無効状態を継承します。
-
スナップショット保持オプティマイザーと孤立ファイル削除オプティマイザーはスケジュールベースであるため、更新によりスケジュールの開始がランダムに遅延します。これにより、各オプティマイザーがわずかに異なる時間に開始され、負荷が分散されるため、サービス制限を超える可能性が低くなります。