マネージドデータ圧縮でサポートされる形式と制限事項 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マネージドデータ圧縮でサポートされる形式と制限事項

AWS 分析サービス (Amazon Athena、Amazon EMR、 AWS Glue ETL ジョブなど) による読み取りパフォーマンスを向上させるために、 AWS Glue Data Catalogは、データカタログ内の Iceberg テーブル用にマネージド圧縮 (小さな Amazon S3 オブジェクトを圧縮してより大きなオブジェクトにまとめるプロセス) を提供しています。

データ圧縮は、暗号化されたテーブルからのデータの読み取りなど、データの読み書きのためのさまざまなデータ型と圧縮形式をサポートしています。

データ圧縮は次をサポートします。

  • ファイルタイプ – Parquet

  • データ型 - ブール、整数、長整数、浮動小数点、倍精度浮動小数点数、文字列、10 進数、日付、時刻、タイムスタンプ、文字列、UUID、バイナリ

  • 圧縮 - zstd、gzip、snappy、非圧縮

  • 暗号化 - データ圧縮では、デフォルトの Amazon S3 暗号化 (SSE-S3) とサーバー側 KMS 暗号化 (SSE-KMS) のみがサポートされます。

  • ビンパック圧縮

  • スキーマ進化

  • ターゲットファイルサイズ (iceberg 設定の write.target-file-size-bytes プロパティ) が 128 MB~512 MB の範囲内のテーブル。

  • リージョン

    • アジアパシフィック (東京)

    • アジアパシフィック (ソウル)

    • アジアパシフィック (ムンバイ)

    • アジアパシフィック (シンガポール)

    • 欧州 (アイルランド)

    • 欧州 (ロンドン)

    • 欧州 (フランクフルト)

    • 米国東部 (バージニア北部)

    • 米国東部 (オハイオ)

    • 米国西部(北カリフォルニア)

    • 南米 (サンパウロ)

  • 基礎となるデータを保存する Amazon S3 バケットが別のアカウントにある場合、データカタログが存在するアカウントから圧縮を実行できます。これを実行するには、圧縮ロールが Amazon S3 バケットにアクセスできる必要があります。

データ圧縮は現在、次をサポートしていません。

  • ファイルタイプ – Avro、ORC

  • データ型 - 固定小数点

  • 圧縮 - brotli、lz4

  • パーティションの仕様が進化する中でのファイルの圧縮

  • 通常の並べ替えまたは Z オーダーの並べ替え

  • ファイルのマージまたは削除 - 圧縮プロセスでは、削除ファイルが関連付けられているデータファイルはスキップされます。

  • クロスアカウントテーブルでの圧縮 - クロスアカウントテーブルでは圧縮を実行できません。

  • クロスリージョンテーブルでの圧縮 - クロスリージョンテーブルでは圧縮を実行できません。

  • リソースのリンクでの圧縮の有効化

  • Amazon S3 バケットの VPC エンドポイント

  • DynamoDB ロックマネージャー – データ圧縮を使用する場合、他のデータロードジョブで org.apache.iceberg.aws.dynamodb.DynamoDbLockManager として lock-impl を使用しないでください。