整合 EMR Amazon AWS Lake Formation - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

整合 EMR Amazon AWS Lake Formation

AWS Lake Formation 這是一項受管服務,可協助您探索、編目、清理和保護 Amazon Simple Storage Service (S3) 資料湖中的資料。Lake Formation 提供對 AWS Glue 資料目錄中資料庫和資料表的精細資料行層級存取。如需詳細資訊,請參閱什麼是 AWS Lake Formation?

在 Amazon 6.7.0 及更EMR新版本中,您可以將以 Lake Formation 為基礎的存取控制套用至您提交至 Amazon EMR 叢集的 Spark、Hive 和普雷斯托任務。若要與 Lake Formation 整合,您必須建立具有執行階段角色的EMR叢集。執行階段角色是您與 Amazon 任EMR務或查詢相關聯的 AWS Identity and Access Management (IAM) 角色。Amazon EMR 然後使用這個角色來訪問 AWS 資源。如需詳細資訊,請參閱 Amazon EMR 步驟的執行階段角色

Amazon 如何EMR與 Lake Formation 合作

將 Amazon EMR 與 Lake Formation 集成後,您可以使用StepAPI或使用 SageMaker Studio 對 Amazon EMR 集群執行查詢。然後,Lake Formation 透過 Amazon 的臨時登入資料提供存取資料EMR。此程序稱為憑證販售程序。如需詳細資訊,請參閱什麼是 AWS Lake Formation?

以下是 Amazon 如何存EMR取受 Lake Formation 安全政策保護之資料的高階概觀。

Amazon 如何EMR存取受 Lake Formation 安全政策保護的數據
  1. 使用者針對 Lake Formation 中的資料提交 Amazon EMR 查詢。

  2. Amazon 向 Lake Formation EMR 請求臨時登入資料,以提供使用者資料存取權限。

  3. Lake Formation 傳回暫時憑證。

  4. Amazon EMR 發送查詢請求以從 Amazon S3 檢索數據。

  5. Amazon EMR 會從 Amazon S3 接收資料、對其進行篩選,然後根據使用者在 Lake Formation 中定義的使用者許可傳回結果。

如需有關將使用者和群組新增至 Lake Formation 政策的詳細資訊,請參閱授予 Data Catalog 許可

必要條件

在整合 Amazon EMR 和 Lake Formation 之前,您必須符合以下要求:

  • 在 Amazon EMR 叢集上開啟執行階段角色授權。

  • 使用 AWS Glue 資料型錄做為中繼資料存放區。

  • 在 Lake Formation 中定義和管理存取 AWS Glue 資料目錄中的資料庫、資料表和欄的權限。如需詳細資訊,請參閱什麼是 AWS Lake Formation?