本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon EMR 无服务器进行可信身份传播
在 Amazon EMR 7.8.0 及更高版本中,您可以通过 Apache Livy Endpoint 将用户身份从 AWS IAM 身份中心传播到使用 EMR Serverless 的交互式工作负载。Apache Livy交互式工作负载将进一步将提供的身份传播到下游服务,例如Amazon S3、Lake Formation和Amazon Redshift,从而通过下游的用户身份实现安全的数据访问。以下各节提供了概念概述、先决条件以及通过 Apache Livy Endpoint 启动身份并将其传播到使用 EMR Serverless 的交互式工作负载所需的步骤。
概览
对于任何规模和类型的组织,推荐使用 I@@ AM Identit y Center AWS 进行员工身份验证和授权。借助 Identity Center,你可以创建和管理用户身份 AWS,也可以连接现有身份源,包括微软 Active Directory、Okta、Ping Identity JumpCloud、Google Workspace 和微软 Entra ID(前身为 Azure AD)。
可信身份传播是 AWS IAM Identity Center 的一项功能,互联 AWS 服务的管理员可以使用该功能来授予和审计对服务数据的访问权限。对这些数据的访问权限基于用户属性,例如组关联。设置可信身份传播需要互联 AWS 服务的管理员和 IAM Identity Center 管理员之间的协作。有关更多信息,请参阅 IAM Identity Center 用户指南中的先决条件和注意事项。
功能和优势
EMR Serverless Apache Livy Endpoint 与 IAM Identity Center 可信身份传播的集成具有以下好处:
能够在 La AWS ke Form AWS ation 托管的 Glue 数据目录表上使用身份中心身份强制执行表级授权。
能够在 Amazon Redshift 集群上使用 IAM Identity Center 身份强制执行授权。
可实现端到端的全程用户操作跟踪,以满足审计的需要。
能够在 S3 Access Grants 托管的 S3 前缀上使用 Identity Center 身份强制执行 Amazon S3 前缀级别的授权。
工作方式

使用案例示例
数据准备和特征工程
来自多个研究团队的数据科学家可以使用统一的数据平台协作完成复杂的项目。他们使用企业凭证登录 SageMaker 人工智能,立即访问跨多个 AWS 账户的庞大共享数据湖。当他们开始为新的机器学习模型进行功能工程时,通过EMR Serverless启动的Spark会话会根据其传播的身份强制执行Lake Formation的专栏和行级安全策略。科学家可以使用熟悉的工具高效地准备数据和设计功能,而合规团队则可以放心,每一次数据交互都会自动跟踪和审计。这种安全的协作环境加快了研究流程,同时保持了受监管行业所需的严格数据保护标准。