使用 Amazon Athena 来配置对共享 AWS Glue Data Catalog 的跨账户存取

Denis Avdonin，亚马逊 Web Services

摘要

此模式提供了使用AWS Glue数据目录配置存储在亚马逊简单存储服务 (Amazon S3) 存储桶中的数据集的跨账户共享的 step-by-step说明，包括AWS Identity and Access Management (IAM) 策略示例。您可将数据集存储在 S3 存储桶中。元数据由 AWS Glue 爬网程序收集并放入 AWS Glue Data Catalog 中。S3 存储桶和 AWS Glue Data Catalog 位于称为数据账户的 Amazon Web Services account 中。您可向另一个 Amazon Web Services account（称为使用者账户）中的 IAM 主体提供访问权限。用户可以使用 Amazon Athena 无服务器查询引擎查询使用者账户中的数据。

先决条件和限制

先决条件

两个活动 Amazon Web Services account
一个 Amazon Web Services account 中的 S3 存储桶
Athena 引擎版本 2
已安装并配置 AWS 命令行接口 (AWS CLI) Line In terface（或者用于运行 AW CloudShell S CLI 命令的 AWS）

产品版本

此模式仅适用于 Athena 引擎版本 2 和 Athena 引擎版本 3。我们建议您升级到 Athena 引擎版本 3。如果您无法从 Athena 引擎版本 1 升级到 Athena 引擎版本 3，请按照 AWS 大数据博客中使用亚马逊 AWS Athena 跨账户 AWS Glue 数据目录访问中讨论的方法进行操作。

架构

目标技术堆栈

Amazon Athena
Amazon Simple Storage Service（Amazon S3）
AWS Glue
AWS Identity and Access Management (IAM)
AWS Key Management Service (AWS KMS)

下图显示了一种架构，该架构使用 IAM 权限通过 AWS Glue Data Catalog 与另一个 Amazon Web Services account（使用者账户）共享一个 Amazon Web Services account（数据账户）中 S3 存储桶中的数据。

使用 AWS Glue 数据目录在数据账户和消费者账户之间共享 S3 存储桶中的数据集。

图表显示了以下工作流：

数据账户中的 S3 存储桶策略向使用者账户中的 IAM 角色以及数据账户中的 AWS Glue 爬网程序服务角色授予权限。
数据账户中的 AWS KMS 密钥政策向使用者账户中的 IAM 角色以及数据账户中的 AWS Glue 爬网程序服务角色授予权限。
数据账户中的 AWS Glue 爬网程序会发现存储在 S3 存储桶中的数据的架构。
数据账户中 AWS Glue Data Catalog 的资源策略授予对使用者账户中 IAM 角色的访问权限。
用户通过 AWS CLI 命令在使用者账户中创建命名目录引用。
IAM policy 授予使用者账户中的 IAM 角色对数据账户中资源的访问权限。IAM 角色的信任策略允许消费者账户中的用户担任 IAM 角色。
使用者账户中的用户承担 IAM 角色并使用 SQL 查询访问数据目录中的对象。
Athena 无服务器引擎运行 SQL 查询。

注意

IAM 最佳实践建议您向 IAM 角色授予权限并使用联合身份验证。

工具

Amazon Athena 是一种交互式查询服务，它可帮助您通过使用标准 SQL 直接在 Amazon S3 中分析数据。
Amazon Simple Storage Service (Amazon S3) 是一项基于云的对象存储服务，可帮助您存储、保护和检索任意数量的数据。
AWS Glue 是一项完全托管的提取、转换、加载（ETL）服务。它可以帮助您在数据存储和数据流之间对数据进行可靠地分类、清理、扩充和移动。
AWS Identity and Access Management (AWS IAM) 通过控制验证和授权使用您 AWS 资源的用户，帮助您安全地管理对您 AWS 资源的访问。
AWS Key Management Service (AWS KMS) 可帮助您创建和控制加密密钥以保护您的数据。

操作说明

Task	描述	所需技能
授予对 S3 存储桶中数据的访问权限。	根据以下模板创建 S3 存储桶策略，并将该策略分配给存储数据的存储桶。 { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::<consumer account id>:role/<role name>", "arn:aws:iam::<data account id>:role/service-role/AWSGlueServiceRole-data-bucket-crawler" ] }, "Action": "s3:GetObject", "Resource": "arn:aws:s3:::data-bucket/*" }, { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::<consumer account id>:role/<role name>", "arn:aws:iam::<data account id>:role/service-role/AWSGlueServiceRole-data-bucket-crawler" ] }, "Action": "s3:ListBucket", "Resource": "arn:aws:s3:::data-bucket" } ] } 存储桶策略向使用者账户中的 IAM 角色和数据账户中的 AWS Glue 爬网程序服务角色授予权限。	云管理员
(如果需要)授予对数据加密密钥的访问权限。	如果 S3 存储桶由 AWS KMS 密钥加密，请向使用者账户中的 IAM 角色和数据账户中的 AWS Glue 爬网程序服务角色授予密钥 `kms:Decrypt` 权限。使用以下语句更新密钥政策： `{ "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::<consumer account id>:role/<role name>", "arn:aws:iam::<data account id>:role/service-role/AWSGlueServiceRole-data-bucket-crawler" ] }, "Action": "kms:Decrypt", "Resource": "arn:aws:kms:<region>:<data account id>:key/<key id>" }`	云管理员
授予爬网程序对数据的访问权限。	将以下 IAM policy 附加到爬网程序的服务角色： `{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:GetObject", "Resource": "arn:aws:s3:::data-bucket/*" }, { "Effect": "Allow", "Action": "s3:ListBucket", "Resource": "arn:aws:s3:::data-bucket" } ] }`	云管理员
（如果需要）授予爬网程序访问数据加密密钥的权限。	如果 S3 存储桶由 AWS KMS 密钥加密，则通过向爬网程序的服务角色附加以下策略，向其授予密钥 `kms:Decrypt` 权限： `{ "Effect": "Allow", "Action": "kms:Decrypt", "Resource": "arn:aws:kms:<region>:<data account id>:key/<key id>" }`	云管理员
向使用者账户中的 IAM 角色和爬网程序授予对数据目录的访问权限。	登录 AWS 管理控制台，然后打开 AWS Glue 控制台。在导航窗格的数据目录下方，选择设置。在权限部分中添加以下语句，然后选择保存。 `{ "Version" : "2012-10-17", "Statement" : [ { "Effect" : "Allow", "Principal" : { "AWS" : [ "arn:aws:iam::<consumer account id>:role/<role name>", "arn:aws:iam::<data account id>:role/service-role/AWSGlueServiceRole-data-bucket-crawler" ] }, "Action" : "glue:", "Resource" : [ "arn:aws:glue:<region>:<data account id>:catalog", "arn:aws:glue:<region>:<data account id>:database/", "arn:aws:glue:<region>:<data account id>:table/*" ] } ] }` 此策略允许对数据账户中的所有数据库和表执行所有 AWS Glue 操作。您可对策略进行自定义，使其仅向使用者主体授予所需权限。例如，您可提供对数据库中特定表或视图的只读访问权限。	云管理员

Task	描述	所需技能
数据目录命名引用。	要创建命名的数据目录引用，请使用CloudShell或本地安装的 AWS CLI 运行以下命令： `aws athena create-data-catalog --name <shared catalog name> --type GLUE --parameters catalog-id=<data account id>`	云管理员
授予使用者账户中的 IAM 角色对数据的访问权限。	将以下策略附加到使用者账户中的 IAM 角色，以授予该角色跨账户存取数据的权限： `{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:GetObject", "Resource": "arn:aws:s3:::data-bucket/" }, { "Effect": "Allow", "Action": "s3:ListBucket", "Resource": "arn:aws:s3:::data-bucket" }, { "Effect": "Allow", "Action": "glue:", "Resource": [ "arn:aws:glue:<region>:<data account id>:catalog", "arn:aws:glue:<region>:<data account id>:database/", "arn:aws:glue:<region>:<data account id>:table/" ] } ] }` 接下来，使用以下模板指定哪些用户可以按其信任策略接受 IAM 角色： `{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<consumer account id>:user/<IAM user>" }, "Action": "sts:AssumeRole" } ] }` 最后，通过将相同的策略附加到用户组所属的用户组，授予其代入 IAM 角色的权限。	云管理员
（如果需要）授予使用者账户中的 IAM 角色访问数据加密密钥的权限。	如果 S3 存储桶由 AWS KMS 密钥加密，请向使用者账户中的 IAM 角色授予密钥 `kms:Decrypt` 权限，方法是向该角色附加以下策略： `{ "Effect": "Allow", "Action": "kms:Decrypt", "Resource": "arn:aws:kms:<region>:<data account id>:key/<key id>" }`	云管理员
切换到使用者账户中的 IAM 角色以访问数据。	作为数据使用者，切换至 IAM 角色以访问数据账户中的数据。	数据使用者
访问数据。	使用 Athena 查询数据。例如，打开 Athena 查询编辑器，并运行以下查询： `SELECT * FROM <shared catalog name>.<database name>.<table name>` 您还可以使用 Amazon 资源名称（ARN）引用该目录，而不必使用命名目录引用。注意如果您在查询或视图中使用动态目录引用，请用转义的双引号 (\”) 将该引用括起来。例如： `SELECT * FROM \"glue:arn:aws:glue:<region>:<data account id>:catalog\".<database name>.<table name>` 有关更多信息，请参阅 Amazon Athena 用户指南中的跨账户存取 AWS Glue Data Catalog。	数据使用者

其他信息

使用 Lake Formation 作为共享跨账户替代方案

您还可使用 AWS Lake Formation 在账户之间共享对 AWS Glue 目录对象的访问权限。Lake Formation 提供列和行级别的精细访问控制、基于标签的访问控制、ACID 事务的受控表以及其他功能。尽管 Lake Formation 与 Athena 集成良好，但与此模式的仅 IAM 方法相比，它确实需要额外的配置。我们建议您在整体解决方案架构的更广泛背景下考虑决定使用 Lake Formation 或仅 IAM 访问控制。需要考虑的因素包括涉及哪些其他服务以及它们如何与这两种方法集成。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

通过 Amazon Web Services 计算风险价值 (VaR)

将 NORMALIZE 转换为 Amazon Redshift SQL

使用 Amazon Athena 来配置对共享 AWS Glue Data Catalog 的跨账户存取

摘要

先决条件和限制

架构

注意

工具

操作说明

注意

相关资源

其他信息