圧縮管理 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

圧縮管理

Apache Iceberg などのオープンテーブル形式を使用する Amazon S3 データレイクは、データを S3 オブジェクトとして保存します。データレイクテーブルに何千もの小さな Amazon S3 オブジェクトがあると、メタデータのオーバーヘッドが増加し、読み取りパフォーマンスに影響します。 は Iceberg テーブルのマネージド圧縮 AWS Glue Data Catalog を提供し、小さなオブジェクトを大きなオブジェクトに圧縮して、 Amazon Athena や Amazon EMR、 AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを向上させます。データカタログは、同時クエリに支障をきたすことなく圧縮を実行し、Parquet 形式のテーブルに対してのみ圧縮をサポートしています。

テーブルオプティマイザは、テーブルパーティションを継続的にモニタリングして、ファイル数とファイルサイズがしきい値を超えたときに圧縮プロセスを開始します。

Data Catalog では、テーブルまたはテーブル内のパーティションのいずれかにターゲットファイルサイズの 75% 未満のファイルが 5 つ以上ある場合 (現在は 64MB に設定)、圧縮プロセスが開始され、続行されます。

サポートされているデータ型、圧縮形式、制限事項については、「マネージドデータ圧縮でサポートされる形式と制限事項 」を参照してください。