將 Data Catalog 連接至 Hive 中繼存放區的先決條件 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將 Data Catalog 連接至 Hive 中繼存放區的先決條件

若要將 AWS Glue Data Catalog 連接至外部 Apache Hive 中繼存放區並設定資料存取許可,您需要完成下列要求:

注意

我們建議 Lake Formation 管理員部署 AWS SAM 應用程式,只有具備權限的使用者使用 Hive 中繼存放區連線來建立對應的聯合資料庫。

  1. 建立IAM角色。
    部署 AWS SAM 應用程式
    • 建立具有必要許可的角色,以部署建立與 Hive 中繼存放區連線所需的資源 (Lambda 函數、、 Amazon API Gateway IAM角色和 AWS Glue 連線)。

    若要建立聯合資料庫

    資源需要下列許可:

    • glue:CreateDatabase on resource arn:aws:glue:region:account-id:database/gluedatabasename

    • glue:PassConnection on resource arn:aws:glue:region:account-id:connection/hms_connection

  2. 向 Lake Formation 註冊 Amazon S3 位置。

    若要使用 Lake Formation 來管理和保護資料湖中的資料,您必須使用 Lake Formation 註冊具有 Hive 中繼存放區中資料表資料的 Amazon S3 位置。如此一來,Lake Formation 就可以將憑證轉譯為 AWS 分析服務,例如 Athena、Redshift Spectrum 和 Amazon EMR。

    如需註冊 Amazon S3 位置的詳細資訊,請參閱 將 Amazon S3 位置新增至您的資料湖

    當您註冊 Amazon S3 位置時,請選取啟用資料目錄聯合核取方塊,以允許 Lake Formation 擔任存取聯合資料庫中資料表的角色。

    Register location form for AWS Lake Formation with Amazon S3 path and IAM role options.

    如需使用 Lake Formation 註冊資料位置的詳細資訊,請參閱 為您的資料湖設定 Amazon S3 位置

  3. 使用正確的 Amazon EMR版本。

    若要將 Amazon EMR與聯合 Hive 中繼存放區資料庫搭配使用,您需要具有 Hive 3.x 版或更新版本,以及 Amazon 6.x EMR版或更新版本。