AWS Glue ETL을 통한 신뢰할 수 있는 ID 전파
IAM Identity Center를 사용하면 ID 제공업체(IdP)에 연결하고 AWS 분석 서비스 전반에서 사용자 및 그룹의 액세스를 중앙에서 관리할 수 있습니다. Okta, Ping 및 Microsoft Entra ID(이전 Azure Active Directory)와 같은 자격 증명 공급자를 IAM Identity Center와 통합하여 조직의 사용자가 Single Sign-On 환경을 사용하여 데이터에 액세스하도록 할 수 있습니다. 또한 IAM Identity Center는 추가 타사 자격 증명 공급자 연결을 지원합니다.
AWS Glue 5.0 이상을 사용하면 IAM Identity Center에서 AWS Glue 대화형 세션으로 사용자 ID를 전파할 수 있습니다. AWS Glue 대화형 세션은 Amazon S3 Access Grants, AWS Lake Formation 및 Amazon Redshift와 같은 다운스트림 서비스에 제공된 ID를 추가로 전파하고, 이러한 다운스트림 서비스에서 사용자 ID를 통한 안전한 데이터 액세스가 가능합니다.
개요
Identity Center는 규모와 유형에 관계없이 AWS에서 모든 조직의 인력 인증 및 권한 부여에 권장되는 접근 방식입니다. Identity Center를 사용하면 AWS에서 사용자 자격 증명을 생성 및 관리하거나 Microsoft Active Directory, Okta, Ping Identity, JumpCloud, Google Workspace 및 Microsoft Entra ID(이전의 Azure AD)를 포함한 기존 자격 증명 소스를 연결할 수 있습니다.
신뢰할 수 있는 ID 전파는 연결된 AWS 서비스의 관리자가 서비스 데이터에 대한 액세스 권한을 부여하고 감사하는 데 사용할 수 있는 IAM Identity Center 기능입니다. 이 데이터에 대한 액세스는 그룹 연결과 같은 사용자 속성을 기반으로 합니다. 신뢰할 수 있는 ID 전파를 설정하려면 연결된 AWS 서비스의 관리자와 IAM Identity Center 관리자 간의 협업이 필요합니다.
기능 및 이점
IAM Identity Center 신뢰할 수 있는 ID 전파와의 AWS Glue 대화형 세션을 통합하면 다음과 같은 이점이 있습니다.
Lake Formation 관리형 AWS Glue 데이터 카탈로그 테이블에서 Identity Center ID를 사용하여 테이블 수준 권한 부여 및 세분화된 액세스 제어를 적용할 수 있습니다.
Amazon Redshift 클러스터에서 Identity Center ID로 권한 부여를 적용할 수 있습니다.
감사를 위해 사용자 작업의 엔드 투 엔드 추적이 가능합니다.
Amazon S3 Access Grants 관리형 Amazon S3 접두사에 대해 Identity Center 자격 증명을 사용하여 Amazon S3 접두사 수준 인증을 적용할 수 있습니다.
사용 사례
대화형 데이터 탐색 및 분석
데이터 엔지니어는 기업 ID를 사용하여 여러 AWS 계정의 데이터에 원활하게 액세스하고 분석합니다. SageMaker Studio를 활용하여 AWS Glue ETL을 통해 대화형 Spark 세션을 시작하고, Amazon S3 및 AWS Glue Data Catalog를 포함한 다양한 데이터 소스에 연결합니다. 엔지니어가 데이터 세트를 탐색할 때 Spark는 ID를 기반으로 Lake Formation에 정의된 세분화된 액세스 제어를 적용하고, 이를 통해 승인된 데이터만 볼 수 있습니다. 모든 쿼리 및 데이터 변환은 사용자의 ID와 로깅되어 명확한 감사 추적이 생성됩니다. 이 간소화된 접근 방식을 사용하면 클라이언트 환경 전반에서 엄격한 데이터 거버넌스를 유지하면서 새로운 분석 제품의 프로토타입을 신속하게 만들 수 있습니다.
데이터 준비 및 특성 엔지니어링
여러 연구 팀의 데이터 과학자는 통합 데이터 플랫폼을 사용하여 복잡한 프로젝트에서 협업합니다. 기업 자격 증명을 사용하여 SageMaker Studio에 로그인하고, 여러 개의 AWS 계정에 걸쳐 있는 방대한 공유 데이터 레이크에 즉시 액세스합니다. 새로운 기계 학습 모델에 대한 특성 엔지니어링을 시작하면 AWS Glue ETL을 통해 시작된 Spark 세션은 전파된 ID를 기반으로 Lake Formation의 열 및 행 수준 보안 정책을 적용합니다. 과학자는 익숙한 도구를 사용하여 데이터를 효율적으로 준비하고 특성을 엔지니어링할 수 있으며, 규정 준수 팀은 모든 데이터 상호 작용이 자동으로 추적 및 감사되도록 보장합니다. 이 안전한 협업 환경은 규제가 적용되는 산업에 필요한 엄격한 데이터 보호 표준을 유지하면서 연구 파이프라인을 가속화합니다.
작동 방법

사용자는 IAM Identity Center를 통해 기업 ID를 사용하여 클라이언트 대상 애플리케이션(SageMaker AI 또는 사용자 지정 애플리케이션)에 로그인합니다. 그러면 이 ID는 전체 데이터 액세스 파이프라인을 통해 전파됩니다.
인증된 사용자는 데이터 처리를 위한 컴퓨팅 엔진 역할을 하는 AWS AWS Glue 대화형 세션을 시작합니다. 이러한 세션은 워크플로 전체에서 사용자의 ID 컨텍스트를 유지합니다.
AWS Lake Formation과 AWS Glue Data Catalog가 함께 세분화된 액세스 제어를 적용합니다. Lake Formation은 사용자의 전파된 ID를 기반으로 보안 정책을 적용하고, Amazon S3 Access Grants는 추가 권한 계층을 제공하여 사용자가 볼 수 있는 권한이 있는 데이터에만 액세스할 수 있도록 합니다.
마지막으로 시스템은 실제 데이터가 상주하는 Amazon S3 스토리지에 연결됩니다. 모든 액세스에는 결합된 보안 정책이 적용되어 데이터 거버넌스를 유지하면서 대화형 데이터 탐색 및 분석을 지원합니다. 이 아키텍처를 활용하면 여러 AWS 서비스에서 안전한 ID 기반 데이터 액세스가 가능한 동시에 대규모 데이터 세트를 사용하는 데이터 과학자와 엔지니어에게 원활한 사용자 경험이 제공됩니다.
통합
AWS 관리형 개발 환경
다음 AWS 관리형 클라이언트 대상 애플리케이션은 AWS Glue 대화형 세션을 통해 신뢰할 수 있는 ID 전파를 지원합니다.
Sagemaker Unified Studio
Sagemaker Unified Studio에서 신뢰할 수 있는 ID 전파 사용:
클라이언트 대상 개발 환경으로 신뢰할 수 있는 ID 전파가 활성화된 Sagemaker Unified Studio 프로젝트를 설정합니다.
Lake Formation을 설정하여 IAM Identity Center의 사용자 또는 그룹을 기반으로 AWS Glue 테이블에 대한 세분화된 액세스 제어를 활성화합니다.
Amazon S3 Access Grants를 설정하여 Amazon S3의 기본 데이터 위치에 대한 임시 액세스를 활성화합니다.
Sagemaker Unified Studio JupyterLab IDE 공간을 열고, 노트북 실행을 위한 컴퓨팅으로 AWS Glue를 선택합니다.
고객 관리형 자체 호스팅 노트북 환경
사용자 지정 개발 애플리케이션의 사용자에 대해 신뢰할 수 있는 ID 전파를 활성화하려면 AWS 보안 블로그에서 Access AWS services programmatically using trusted identity propagation