将可信身份传播与 AWS Glue ETL 结合使用
借助 IAM Identity Center,您可以连接到身份提供者(IdP)并跨 AWS 分析服务集中管理用户和组的访问权限。您可以将 Okta、Ping 和 Microsoft Entra ID(以前称为 Azure Active Directory)等身份提供者与 IAM Identity Center 集成,以便您组织中的用户使用单点登录体验访问数据。IAM Identity Center 还支持连接其他第三方身份提供者。
使用 AWS Glue 5.0 及更高版本时,您可以将用户身份从 IAM Identity Center 传播到 AWS Glue 交互式会话。AWS Glue交互式会话会进一步将提供的身份传播到下游服务(例如 Amazon S3 访问权限管控、AWS Lake Formation 和 Amazon Redshift),从而在这些下游服务中通过用户身份实现安全的数据访问。
概览
对于任何规模和类型的组织,都建议在 AWS 上使用 Identity Center 进行员工身份验证和授权。借助 Identity Center,您可以在 AWS 中创建和管理用户身份,或连接现有身份源,包括微软 Microsoft Active Directory、Okta、Ping Identity、JumpCloud、Google Workspace 和 Microsoft Entra ID(前身为 Azure AD)。
可信身份传播是 IAM Identity Center 的一项功能,已连接的 AWS 服务的管理员可以使用此功能来授予和审计对服务数据的访问权限。对这些数据的访问权限基于用户属性,例如组关联。要设置可信身份传播,需要已连接的 AWS 服务的管理员和 IAM Identity Center 管理员之间进行协作。
功能和优势
将 AWS Glue 交互式会话与 IAM Identity Center 可信身份传播功能集成,将具有以下优势:
能够在 Lake Formation 托管式 AWS Glue 数据目录表上使用 Identity Center 身份强制执行表级授权并实现精细访问控制。
能够在 Amazon Redshift 集群上使用 IAM Identity Center 身份强制执行授权。
可实现端到端的全程用户操作跟踪,以满足审计的需要。
能够在 Amazon S3 访问权限管控托管式 Amazon S3 前缀上使用 Identity Center 身份强制执行 Amazon S3 前缀级别的授权。
使用案例
交互式数据探索和分析
数据工程师可使用其企业身份,跨多个 AWS 账户无缝访问和分析数据。使用 SageMaker Studio 时,他们可通过 AWS Glue ETL 启动交互式 Spark 会话,连接到各种数据来源,包括 Amazon S3 和 AWS Glue Data Catalog。当工程师探索数据集时,Spark 会根据他们的身份实施在 Lake Formation 中定义的精细访问控制,确保他们只能查看获得授权的数据。所有查询和数据转换操作都会登记用户身份,从而创建清晰的审计跟踪记录。这种简洁的方法有利于快速设计新分析产品的原型,同时确保在客户环境中执行严格的数据治理。
数据准备和特征工程
来自多个研究团队的数据科学家可以使用统一的数据平台协作完成复杂的项目。他们只需使用企业凭证登录 SageMaker Studio,即可立即跨多个 AWS 账户访问庞大的共享数据湖。开始新机器学习模型的特征工程时,通过 AWS Glue ETL启动的 Spark 会话会根据他们传播的身份强制执行 Lake Formation 列级和行级安全策略。科学家可以使用自己熟悉的工具高效地准备数据和开展特征工程,同时合规团队也可以确信每次数据交互都会得到自动跟踪和审计。这种安全的协作环境不仅可以加快研究管道,同时还可确保遵守受监管行业严格的数据保护标准。
工作方式

用户使用其企业身份,通过 IAM Identity Center 登录面向客户的应用程序(SageMaker AI 或自定义应用程序)。然后,该身份将通过整个数据访问管道传播。
通过身份验证的用户启动 AWS AWS Glue 交互式会话,并将其作为计算引擎来处理数据。这些会话负责在整个工作流中维护用户的身份上下文。
AWS Lake Formation 与 AWS Glue Data Catalog 协同工作,强制实施精细访问控制。Lake Formation 根据传播的用户身份应用安全策略,而 Amazon S3 访问权限管控则提供额外的权限层,确保用户只能访问被授权查看的数据。
最后,系统会连接到实际数据驻留的 Amazon S3 存储。所有访问均通过组合安全策略进行监管,在实现交互式数据探索和分析的同时遵循数据治理要求。这种架构可实现跨多个 AWS 服务进行基于身份的安全数据访问,同时确保处理大型数据集的数据科学家和工程师获得无缝的用户体验。
集成
AWS 托管式开发环境
以下面向客户端的 AWS 托管式应用程序支持通过 AWS Glue 交互式会话进行可信身份传播:
Sagemaker Unified Studio
要将可信身份传播与 Sagemaker Unified Studio 结合使用:
将启用了可信身份传播的 Sagemaker Unified Studio 项目设置为面向客户的开发环境。
设置 Lake Formation,以便基于 IAM Identity Center 中的用户或组为 AWS Glue 表启用精细访问控制。
设置 Amazon S3 访问权限管控,以便允许临时访问 Amazon S3 中的相关数据位置。
打开 Sagemaker Unified Studio JupyterLab IDE 空间,然后将 AWS Glue 选择作为 Notebook 执行的计算资源。
客户自行管理的自托管 Notebook 环境
要为自定义开发应用程序的用户启用可信身份传播,请参阅 AWS 安全博客中的 Access AWS services programmatically using trusted identity propagation