Iceberg テーブルの最適化 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Iceberg テーブルの最適化

AWS Glue は、 AWS 分析エンジンとETLジョブで使用される Apache Iceberg テーブルの管理とパフォーマンスを向上させるための複数のテーブル最適化オプションをサポートしています。これらのオプティマイザーは、効率的なストレージの使用量、クエリパフォーマンスの向上、効率的なデータ管理を実現します。では、次の 3 種類のテーブルオプティマイザを使用できます AWS Glue。

  • 圧縮 — データ圧縮では小さなデータファイルを圧縮して、ストレージの使用量を減らし、読み取りパフォーマンスを向上させます。古いデータを削除して、フラグメント化されたデータをより大規模で効率的なファイルに統合するために、データファイルはマージされ、書き換えられます。圧縮は、必要に応じて自動または手動でトリガーするように設定できます。

  • スナップショット保持 — スナップショットは、Iceberg テーブルのタイムスタンプ付きバージョンです。スナップショット保持設定を使用すると、スナップショットを保持する期間と保持するスナップショットの数を強制できます。スナップショット保持オプティマイザーを設定すると、古い不要なスナップショットとその基となる関連付けされたファイルを削除して、ストレージのオーバーヘッドを管理するのに役立ちます。

  • 孤立ファイルの削除 — 孤立ファイルは、Iceberg テーブルメタデータによって参照されなくなったファイルです。これらのファイルは、特にテーブルの削除やETLジョブの失敗などの操作の後、時間の経過とともに蓄積される可能性があります。孤立ファイルの削除を有効にすると AWS Glue 、これらの不要なファイルを定期的に識別して削除できるため、ストレージが解放されます。

データカタログ内の個々の Iceberg テーブルの圧縮、スナップショット保持、孤立ファイル削除オプティマイザを、 AWS Glue コンソール AWS CLI、または AWS Glue APIオペレーションを使用して有効または無効にできます。

次のビデオでは、 で Iceberg テーブルのオプティマイザを設定する方法を示します AWS Glue クローラー。