Hive 中繼資料存放區資料共用考量和限制 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Hive 中繼資料存放區資料共用考量和限制

使用 AWS Glue Data Catalog 中繼資料聯合 (Data Catalog 聯合),您可以將 Data Catalog 連接至外部中繼存放 Amazon S3 資料的中繼資料,並使用 安全地管理資料存取許可 AWS Lake Formation。

下列考量和限制適用於從 Hive 資料庫建立的聯合資料庫:

考量事項
  • AWS SAM 應用程式支援 – 您要負責 AWS SAM 部署的應用程式資源可用性 (Amazon API Gateway 和 Lambda 函數)。使用者執行查詢時,請確定 AWS Glue Data Catalog 和 Hive 中繼存放區之間的連線正常運作。

  • Hive 中繼存放區版本需求 – 您只能使用 Apache Hive 第 3 版及更高版本建立聯合資料庫。

  • 映射的資料庫需求 – 每個 Hive 資料庫都必須映射到 Lake Formation 中的新資料庫。

  • 資料庫層級聯合支援 – 您只能在資料庫層級連線至 Hive 中繼存放區。

  • 聯合資料庫上的許可 – 即使刪除來源資料表或資料庫,在聯合資料庫下套用至聯合資料庫或資料表的許可仍會保留。重新建立來源資料庫或資料表時,您不需要重新授予許可。在來源刪除具有 Lake Formation 許可的聯合資料表時,Lake Formation 許可仍然可見,您可以視需要撤銷。

    如果使用者刪除聯合資料庫,則會失去其所有對應的許可。使用相同名稱重新建立相同的資料庫, 將不會復原 Lake Formation 許可。使用者將必須再次設定新的許可。

  • 聯合資料庫的IAMAllowedPrincipal 群組許可 – 根據 DataLakeSettings,Lake Formation 可能會將所有資料庫和資料表的許可設定為名為 的虛擬群組IAMAllowedPrincipalIAMAllowedPrincipal 是指所有可透過IAM主體政策和資源政策存取 Data Catalog AWS Glue 資源的IAM主體。如果這些許可存在於資料庫或資料表上,則會授予所有主體對資料庫或資料表的存取權。

    但是,Lake Formation 不允許對聯合資料庫下的資料表進行IAMAllowedPrincipal許可。當您建立聯合資料庫時,請確定您將 CreateTableDefaultPermissions 參數傳遞為空清單。

    如需詳細資訊,請參閱變更資料湖的預設設定

  • 在查詢中聯結資料表 – 您可以將 Hive 中繼存放區資料表與 Data Catalog 原生資料表聯結,以執行查詢。

限制
  • AWS Glue Data Catalog 與 Hive 中繼存放區之間同步中繼資料的限制 – 建立 Hive 中繼存放區連線後,您需要建立聯合資料庫,以將 Hive 中繼存放區中的中繼資料與 同步 AWS Glue Data Catalog。當使用者執行查詢時,聯合資料庫下的資料表會在執行階段同步。

  • 在聯合資料庫下建立新資料表的限制 – 您將無法在聯合資料庫下建立新資料表。

  • 資料許可限制 – 不支援 Hive 中繼存放區資料表檢視的許可。