Amazon Redshift 的 Apache Iceberg 相容性 - Amazon Redshift

自 2025 年 11 月 1 日起,Amazon Redshift 將不再支援建立新的 Python UDFs。如果您想要使用 Python UDFs,請在該日期之前建立 UDFs。現有的 Python UDFs將繼續如常運作。如需詳細資訊,請參閱部落格文章

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Redshift 的 Apache Iceberg 相容性

您可以將整個 Amazon Redshift 佈建叢集或無伺服器命名空間註冊到 AWS Glue Data Catalog ,以建立目錄,安全地跨 AWS 帳戶共用即時資料。您可以從支援 Apache Iceberg REST API 的任何 SQL 查詢引擎存取這些目錄。 會 AWS Lake Formation 管理目錄的許可,讓您可以使用一組許可來管理資料的單一複本,同時利用具體化視觀表和零 ETL 整合等 Amazon Redshift 功能。

從 中註冊的 Amazon Redshift 佈建叢集和無伺服器命名空間建立的所有目錄 AWS Glue Data Catalog ,都會自動掛載為相同帳戶 AWS 區域 下相同 中所有佈建叢集和無伺服器工作群組上的外部資料庫。在 中建立 AWS Glue Data Catalog 以在 Redshift 受管儲存 (RMS) 中存放資料的目錄,會與外部資料庫類似掛載。掛載後,您可以直接連接到這些資料庫,並使用三部分表示法 查詢物件database@namespace-catalog.schema.table

提供 Apache Iceberg 相容性的區域

下列提供 Apache Iceberg 與 Amazon Redshift 的相容性 AWS 區域:

  • 美國東部 (維吉尼亞北部)

  • 美國東部 (俄亥俄)

  • 美國西部 (加利佛尼亞北部)

  • 亞太區域 (香港)

  • 亞太區域 (首爾);

  • 亞太區域 (新加坡)

  • 亞太區域 (雪梨)

  • 亞太區域 (東京)

  • 加拿大 (中部)

  • 歐洲 (法蘭克福)

  • 歐洲 (愛爾蘭)

  • 歐洲 (倫敦)

  • 歐洲 (斯德哥爾摩)

  • 南美洲 (聖保羅)

在 中使用 Amazon Redshift 目錄時的考量和限制 AWS Glue Data Catalog

在 中使用 Amazon Redshift 目錄時 AWS Glue Data Catalog,請考慮下列事項:

  • 向 註冊的資料倉儲 AWS Glue Data Catalog 遵循存取資料表的三部分語法 (database@namespace-catalog.schema.table)。例如,如果您註冊名為 a 的 Amazon Redshift 命名空間,由名為 b 的資料庫填入,該資料庫擁有名為 c 的結構描述,其中名為 d 的資料表,您可以使用下列陳述式從 d 中選取:

    SELECT * FROM b@a.c.d;

    請注意,語法database@namespace-catalog部分的總長度必須為 127 個字元或更少。

  • 當您向 註冊叢集或命名空間時 AWS Glue Data Catalog,Amazon Redshift 會註冊該叢集或命名空間中的所有資料庫和關係。

  • 您可以將多個 Redshift 叢集和命名空間註冊到 AWS Glue Data Catalog。

  • 註冊叢集或命名空間只會註冊該叢集或命名空間中的內部結構描述和關係。未註冊下列項目:

    • 外部結構描述。

    • 外部資料表。請注意,從外部資料表建立的近期繫結檢視將會註冊。

    • 使用者建立的函數。

    • 程序。

    • 連接資料列層級安全或動態資料遮罩政策的資料表。

    • 具有大寫或混合大小寫名稱的資料庫物件。包含大寫或混合大小寫欄的資料表不會註冊。即使 enable_case_sensitive_identifier 已停用,這也適用。

  • Amazon Redshift 資料庫許可,例如角色型存取控制授予的角色,不會轉移到 中的目錄 AWS Glue Data Catalog。使用 AWS Lake Formation 設定 的許可 AWS Glue Data Catalog。如需使用 Lake Formation 設定許可的詳細資訊,請參閱《 AWS Lake Formation 開發人員指南》中的設定 Amazon Redshift 資料共用的許可

  • 當您從已註冊的叢集或無伺服器命名空間建立目錄時, 會使用 Amazon Redshift 運算資源 AWS Glue Data Catalog 建立 Amazon Redshift 受管工作群組,以便在查詢該目錄時處理運算需求。您可以在 Amazon Redshift Serverless 主控台中檢視受管工作群組,並在其中進行管理 AWS Glue。

  • 當您註冊暫停的叢集時,在叢集恢復之前, AWS Glue Data Catalog 不會將該叢集掛載為目錄。

  • 當您註冊未主動使用的無伺服器命名空間時,在再次使用命名空間之前, AWS Glue Data Catalog 不會將該命名空間掛載為目錄。

  • 您的帳戶必須具有預設 VPC 才能建立受管工作群組。

  • 若要存取已註冊至 的資料倉儲中的資料表 AWS Glue Data Catalog,資料庫的隔離層級必須是 SNAPSHOT。嘗試存取隔離層級為 SERIALIZABLE 的資料表將導致錯誤。如需可序列化隔離的詳細資訊,請參閱可序列化隔離。如需變更資料庫隔離層級的資訊,請參閱 ALTER DATABASE

    請注意,預設dev資料庫的隔離層級無法變更。因此,這表示在向 註冊資料倉儲時,dev資料庫中的資料表不會包含在可存取的資料中 AWS Glue Data Catalog。