受管理資料壓縮的支援格式和限制 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

受管理資料壓縮的支援格式和限制

若要透過 Amazon Athena、Amazon EMR 和 AWS Glue ETL 任務等 AWS 分析服務提供更佳的讀取效能,請為資料型錄中的冰山資料表 AWS Glue Data Catalog 提供受管壓縮 (將小型 Amazon S3 物件壓縮為較大物件的程序)。

數據壓縮支持多種數據類型和壓縮格式,用於讀取和寫入數據,包括從加密表中讀取數據。

資料壓縮支援:

  • 檔案類型 — 實木地板

  • 資料類型 — 布林值、整數、長、浮點數、雙精度、字串、十進位、日期、時間、時間戳記、字串、UUID、二進位

  • 壓縮-壓縮,壓縮,活潑,未壓縮

  • 加密 — 資料壓縮僅支援預設的 Amazon S3 加密 (SSE-S3) 和伺服器端 KMS 加密 (SSE-KMS)。

  • BinPack 壓縮

  • 結構描述演進

  • 具有目標檔案大小的表格 (寫入。 target-file-size-bytes 在冰山配置中的屬性)包含範圍內 128MB 至 512 MB。

  • 區域

    • 亞太區域 (東京)

    • 亞太區域 (首爾)

    • 亞太區域 (孟買)

    • 亞太區域 (新加坡)

    • 歐洲 (愛爾蘭)

    • 歐洲 (倫敦)

    • 歐洲 (法蘭克福)

    • 美國東部 (維吉尼亞北部)

    • 美國東部 (俄亥俄)

    • 美國西部 (加利佛尼亞北部)

    • 南美洲 (聖保羅)

  • 當儲存基礎資料的 Amazon S3 儲存貯體位於其他帳戶中時,您可以從 Data Catalog 所在的帳戶中執行壓縮程序。若要執行此程序,壓縮角色需要 Amazon S3 儲存貯體的存取權。

資料壓縮目前不支援:

  • 檔案類型 — 阿夫羅、ORC

  • 數據類型-固定

  • 壓縮 brotli,LZ4

  • 在分區規格發展時壓縮文件

  • 一般排序或堆疊順序排序

  • 合併或刪除檔案 — 壓縮程序會略過具有刪除與檔案相關聯之檔案的資料檔案。

  • 跨帳戶資料表壓縮 — 您無法在跨帳戶資料表上執行壓縮。

  • 跨區域資料表壓縮 — 您無法在跨區域資料表上執行壓縮。

  • 在資源連結上啟用壓縮功能

  • Amazon S3 儲存貯體的 VPC 端點

  • DynamoDB 鎖定管理員 — 使用資料壓縮時,不應將其他資料載入作業當做組織使用lock-impl。 DynamoDbLockManager。