本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue ETL 進行信任的身分傳播
透過 IAM Identity Center,您可以連線到身分提供者 (IdPs),並集中管理跨 AWS 分析服務之使用者和群組的存取權。您可以將 Okta、Ping 和 Microsoft Entra ID (先前稱為 Azure Active Directory) 等身分提供者與 IAM Identity Center 整合,讓組織中的使用者使用單一登入體驗存取資料。IAM Identity Center 也支援連接額外的第三方身分提供者。
透過 AWS Glue 5.0 和更新版本,您可以將使用者身分從 IAM Identity Center 傳播到 AWS Glue 互動式工作階段。 AWS Glue 互動式工作階段將進一步將提供的身分傳播到下游服務 AWS Lake Formation,例如 Amazon S3 Access Grants 和 Amazon Redshift,以便在這些下游服務中透過使用者身分啟用安全的資料存取。
概觀
Identity Center 是建議用於任何大小和類型組織 AWS 在 上進行人力資源身分驗證和授權的方法。使用 Identity Center,您可以在 中建立和管理使用者身分 AWS,或連接現有的身分來源,包括 Microsoft Active Directory、Okta、Ping Identity、JumpCloud、Google Workspace 和 Microsoft Entra ID (先前稱為 Azure AD)。
信任的身分傳播是一種 IAM Identity Center 功能,連線 AWS 服務的管理員可以使用此功能來授予和稽核服務資料的存取權。存取此資料是根據使用者屬性,例如群組關聯。設定信任的身分傳播需要連線 AWS 服務的管理員與 IAM Identity Center 管理員之間的協同合作。
功能和優勢
AWS Glue 互動式工作階段與 IAM Identity Center Trusted Identity Propagation 整合可提供下列優點:
能夠在 Lake Formation 受管 AWS Glue 資料目錄資料表上使用 Identity Center 身分強制執行資料表層級授權和精細存取控制。
在 Amazon Redshift 叢集上使用 Identity Center 身分強制執行授權的能力。
啟用使用者動作的端對端追蹤以進行稽核。
能夠在 Amazon S3 Amazon S3 Access Grants 管理的 Amazon S3 字首上使用 Identity Center 身分強制執行 Amazon S3 字首層級授權。
使用案例
互動式資料探索和分析
資料工程師會使用其公司身分,無縫存取和分析多個 AWS 帳戶的資料。透過 SageMaker Studio,他們透過 AWS Glue ETL 啟動互動式 Spark 工作階段,連線至各種資料來源,包括 Amazon S3 和 AWS Glue Data Catalog。當工程師探索資料集時,Spark 會根據其身分強制執行 Lake Formation 中定義的精細存取控制,確保他們只能檢視授權的資料。所有查詢和資料轉換都會以使用者的身分記錄,建立明確的稽核線索。這種簡化的方法可快速建構新分析產品的原型,同時在用戶端環境中維持嚴格的資料控管。
資料準備和功能工程
來自多個研究團隊的資料科學家使用統一的資料平台協作處理複雜的專案。他們使用公司登入資料登入 SageMaker Studio,立即存取跨越多個 AWS 帳戶的大量共用資料湖。當他們開始為新的機器學習模型進行特徵工程時,透過 AWS Glue ETL 啟動的 Spark 工作階段會根據其傳播的身分強制執行 Lake Formation 的資料欄和資料列層級安全政策。科學家可以使用熟悉的工具有效率地準備資料和設計功能,同時合規團隊可以確保自動追蹤和稽核每個資料互動。這個安全、協作的環境可加速研究管道,同時維持受監管產業所需的嚴格資料保護標準。
運作方式

使用者透過 IAM Identity Center 使用其公司身分登入面向用戶端的應用程式 (SageMaker AI 或自訂應用程式)。此身分接著會透過整個資料存取管道傳播。
已驗證的使用者會啟動 AWS AWS Glue 互動式工作階段,做為資料處理的運算引擎。這些工作階段會在整個工作流程中維護使用者的身分內容。
AWS Lake Formation 和 AWS Glue Data Catalog 協同運作,以強制執行精細存取控制。Lake Formation 根據使用者的傳播身分套用安全政策,而 Amazon S3 Access Grant 提供額外的許可層,確保使用者只能存取他們獲授權檢視的資料。
最後,系統會連線至實際資料所在的 Amazon S3 Storage。所有存取都由合併的安全政策管理,維護資料控管,同時啟用互動式資料探勘和分析。此架構可跨多個 AWS 服務啟用安全、以身分為基礎的資料存取,同時為使用大型資料集的資料科學家和工程師提供順暢的使用者體驗。
整合
AWS 受管開發環境
以下 AWS 受管用戶端應用程式支援使用 AWS Glue 互動式工作階段的受信任身分傳播:
Sagemaker Unified Studio
若要搭配 Sagemaker Unified Studio 使用受信任的身分傳播:
將已啟用信任身分傳播的 Sagemaker Unified Studio 專案設定為面向用戶端的開發環境。
設定 Lake Formation 以根據 IAM Identity Center 中的使用者或群組啟用 AWS Glue 資料表的精細存取控制。
設定 Amazon S3 Access Grants 以啟用暫時存取 Amazon S3 中的基礎資料位置。
開啟 Sagemaker Unified Studio JupyterLab IDE 空間,然後選取 AWS Glue 做為筆記本執行的運算。
客戶管理的自我託管筆記本環境
若要為自訂開發應用程式的使用者啟用受信任身分傳播,請參閱 AWS 安全部落格中的使用受信任身分傳播以程式設計方式存取 AWS 服務