将数据目录连接到 Hive 元存储的先决条件 - AWS Lake Formation

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将数据目录连接到 Hive 元存储的先决条件

要将 AWS Glue Data Catalog 连接到外部 Apache Hive 元数据仓并设置数据访问权限,您需要完成以下要求:

注意

我们建议 Lake Formation 管理员部署 AWS SAM 应用程序,并且只有特权用户才能使用 Hive 元数据仓连接来创建相应的联合数据库。

  1. 创建IAM角色。
    部署 AWS SAM 应用程序
    • 创建具有部署资源(Lambda 函数 Amazon API Gateway、IAM角色和 AWS Glue 连接)所需权限的角色,以创建与 Hive 元数据仓的连接。

    创建联合数据库

    资源需要以下权限:

    • glue:CreateDatabase on resource arn:aws:glue:region:account-id:database/gluedatabasename

    • glue:PassConnection on resource arn:aws:glue:region:account-id:connection/hms_connection

  2. 在 Lake Formation 中注册 Amazon S3 位置。

    要使用 Lake Formation 管理和保护数据湖中的数据,您必须在 Lake Formation 中注册含有 Hive 元存储中表数据的 Amazon S3 位置。通过这样做,Lake Formation可以向雅典娜、Redshift Spectrum和亚马逊等 AWS 分析服务机构出售证书。EMR

    有关注册 Amazon S3 位置的更多信息,请参阅向数据湖添加 Amazon S3 位置

    注册 Amazon S3 位置时,选中 “启用数据目录联合” 复选框以允许 Lake Formation 代入访问联合数据库中表的角色。

    Register location form for AWS Lake Formation with Amazon S3 path and IAM role options.

    有关在 Lake Formation 中注册数据位置的更多信息,请参阅为您的数据湖配置 Amazon S3 位置

  3. 使用正确的亚马逊EMR版本。

    要将亚马逊EMR与联合 Hive 元数据仓数据库配合使用,您需要拥有 Hive 3.x 或更高版本以及亚马逊 6.x 或更高EMR版本。