本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將 Data Catalog 連接至 Hive 中繼存放區的先決條件
若要將 AWS Glue Data Catalog 連接至外部 Apache Hive 中繼存放區並設定資料存取許可,您需要完成下列要求:
注意
我們建議 Lake Formation 管理員部署 AWS SAM 應用程式,只有具備權限的使用者使用 Hive 中繼存放區連線來建立對應的聯合資料庫。
建立IAM角色。
部署 AWS SAM 應用程式
建立具有必要許可的角色,以部署建立與 Hive 中繼存放區連線所需的資源 (Lambda 函數、、 Amazon API Gateway IAM角色和 AWS Glue 連線)。
若要建立聯合資料庫
資源需要下列許可:
-
glue:CreateDatabase on resource arn:aws:glue:region:account-id:database/gluedatabasename
-
glue:PassConnection on resource arn:aws:glue:region:account-id:connection/hms_connection
-
向 Lake Formation 註冊 Amazon S3 位置。
若要使用 Lake Formation 來管理和保護資料湖中的資料,您必須使用 Lake Formation 註冊具有 Hive 中繼存放區中資料表資料的 Amazon S3 位置。如此一來,Lake Formation 就可以將憑證轉譯為 AWS 分析服務,例如 Athena、Redshift Spectrum 和 Amazon EMR。
如需註冊 Amazon S3 位置的詳細資訊,請參閱 將 Amazon S3 位置新增至您的資料湖。
當您註冊 Amazon S3 位置時,請選取啟用資料目錄聯合核取方塊,以允許 Lake Formation 擔任存取聯合資料庫中資料表的角色。
如需使用 Lake Formation 註冊資料位置的詳細資訊,請參閱 為您的資料湖設定 Amazon S3 位置。
-
使用正確的 Amazon EMR版本。
若要將 Amazon EMR與聯合 Hive 中繼存放區資料庫搭配使用,您需要具有 Hive 3.x 版或更新版本,以及 Amazon 6.x EMR版或更新版本。