管理使用外部中繼存放區之資料集的權限 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

管理使用外部中繼存放區之資料集的權限

使用 AWS Glue Data Catalog 中繼資料聯合 (資料目錄聯合),您可以將資料目錄連接到存放 Amazon S3 資料中繼資料的外部中繼資料的外部中繼資料,並使用 AWS Lake Formation安全地管理資料存取許可。您不需要將中繼資料從外部中繼存放區移轉至資料目錄。

資料目錄提供集中的中繼資料儲存庫,可讓跨不同系統的資料管理和探索更加輕鬆。當您的組織管理資料目錄中的資料時,您可以用 AWS Lake Formation 來控制對 Amazon S3 中資料集的存取。

注意

目前,我們僅支援 Apache Hive(版本 3 及更高版本)中繼儲存庫聯盟。

若要設定資料目錄聯盟,我們HiveMetastore在中提供名為 GlueDataCatalogFederation- 的 AWS Serverless Application Model (AWS SAM) 應用程式 AWS Serverless Application Repository。

參考實 GitHub 作是以開放原始碼專案的形式在AWS Glue Data Catalog 聯合-Hive 中繼存放區中提供。

AWS SAM 應用程式會建立並部署下列資源,以便將資料目錄連線至 Hive 中繼存放區所需的資源:

  • AWS Lambda 函數 — 主控在資料目錄和 Hive 中繼存放區之間進行通訊的聯合服務的實作。 AWS Glue 調用此 Lambda 函數從蜂巢中繼存儲中檢索元數據對象。

  • Amazon API Gateway-Hive 中繼存儲的連接端點,充當代理,將所有調用路由到 Lambda 函數。

  • IAM 角色 — 具有建立資料目錄和 Hive 中繼存放區之間連線所需權限的角色。

  • AWS Glue 連線 — 一 Amazon API Gateway 種存放端點的 AWS Glue 連線類型,以及要呼叫 Amazon API Gateway 端點的 IAM 角色。

當您查詢資料表時, AWS Glue 服務會對 Hive 中繼儲存區進行執行階段呼叫,並擷取中繼資料。Lambda 函數充當蜂巢中繼存儲和數據目錄之間的轉換器。

建立連線之後,為了將 Hive 中繼資料與資料目錄同步處理中繼資料,您需要使用 Hive 中繼存放區連線詳細資料在資料目錄中建立聯合資料庫,並將此資料庫對應至 Hive 資料庫。當資料庫指向「資料目錄」外部的圖元時,即稱為聯合資料庫。

您可以使用以標籤為基礎的存取控制和聯合資料庫上的具名資源方法來套用 Lake Formation 權限,並在多 AWS 帳戶個組織單位 (OU) 之間共用。 AWS Organizations您也可以直接與其他帳戶的 IAM 主體共用聯合資料庫。

您可以使用外部 Hive 資料表上的 Lake Formation 資料篩選器,在資料行層級、資料列層級和儲存格層級定義細微的權限。您可以使用 Amazon Athena,Amazon Redshift 或 Amazon EMR 查詢 Lake Formation 託管的外部蜂巢表。

如需跨帳戶資料共用和資料篩選的詳細資訊,請參閱:

資料目錄中繼資料同盟高階步
  1. 您可以建立具有適當權限的 IAM 使用者和角色來部署 AWS SAM 應用程式和建立聯合資料庫。

  2. 您可以透過選取使用外部 Hive 中繼存放區的資料集Enable Data Catalog federation選項,向 Lake Formation 註冊 Amazon S3 資料位置。

  3. 您可以設定 AWS SAM 應用程式設定 (AWS Glue 連線名稱、Hive 中繼存放區的 URL 以及 Lambda 函數參數),然後部署 AWS SAM 應用程式。

  4. AWS SAM 應用程式會部署連接外部 Hive 中繼存放區與資料目錄所需的資源。

  5. 若要在 Hive 資料庫和資料表上套用 Lake Formation 權限,您可以使用 Hive 中繼存放區連線詳細資料在資料目錄中建立資料庫,並將此資料庫對應至 Hive 資料庫。

  6. 將聯合資料庫的權限授與您帳戶或其他帳戶中的主體。

注意

您可以將資料目錄連線到外部 Hive mestastore、建立聯合資料庫,以及在 Hive 資料庫和資料表上執行查詢和 ETL 指令碼,而無需套用 Lake Formation 權限。對於未向 Lake Formation 註冊的 Amazon S3 中的來源資料,存取由 Amazon S3 的 IAM 許可政策和 AWS Glue 動作決定。

如需限制的詳細資訊,請參閱Hive 中繼資料儲存資料共用考量和限制

工作流程

下圖顯示了連接到外部 Hive 中 AWS Glue Data Catalog 繼存儲的工作流程。

  1. 主體使用整合式服務 (例如 Athena 或 Redshift 頻譜) 提交查詢。

  2. 整合式服務會呼叫中繼資料的資料目錄,進而呼叫後方可用的 Hive 中繼存放區端點 Amazon API Gateway,並接收中繼資料要求的回應。

  3. 整合式服務會將要求傳送至 Lake Formation,以驗證資料表資訊和憑證以存取資料表。

  4. Lake Formation 授權請求並將臨時憑據出售給集成的應用程序,從而允許數據訪問。

  5. 整合式服務會使用從 Lake Formation 接收到的臨時登入資料,從 Amazon S3 讀取資料,並將結果分享給主體。