Propagación de identidades de confianza con AWS Glue ETL
Con IAM Identity Center, puede conectarse a proveedores de identidad (IdP) y administrar de forma centralizada el acceso de usuarios y grupos en todos los servicios de análisis de AWS. Puede integrar proveedores de identidad como Okta, Ping y Microsoft Entra ID (anteriormente Azure Active Directory) con IAM Identity Center para que los usuarios de su organización accedan a los datos mediante una experiencia de inicio de sesión único. IAM Identity Center también permite conectar otros proveedores de identidad de terceros.
Con AWS Glue 5.0 y versiones posteriores, puede propagar las identidades de los usuarios de IAM Identity Center a las sesiones interactivas de AWS Glue. AWS Glue Las sesiones interactivas propagarán aún más la identidad proporcionada a los servicios posteriores, como Concesiones de acceso a Amazon S3, AWS Lake Formation y Amazon Redshift, lo que permitirá el acceso seguro a los datos mediante la identidad del usuario en estos servicios posteriores.
Descripción general
Identity Center es el enfoque recomendado para la autenticación y autorización del personal en AWS para organizaciones de cualquier tamaño y tipo. Con Identity Center, puede crear y administrar identidades de usuario en AWS o conectar una fuente de identidad existente, entre las que se incluyen Microsoft Active Directory, Okta, Ping Identity, JumpCloud, Google Workspace y Microsoft Entra ID (anteriormente Azure AD).
La propagación de identidades de confianza es una característica de IAM Identity Center que los administradores de los servicios conectados de AWS pueden utilizar para conceder y auditar el acceso a los datos del servicio. El acceso a estos datos se basa en los atributos del usuario, como las asociaciones de grupo. La configuración de la propagación de identidades de confianza requiere la colaboración entre los administradores de los servicios conectados de AWS y los administradores de IAM Identity Center.
Características y ventajas
La integración de las sesiones interactivas de AWS Glue con la propagación de identidades de confianza de IAM Identity Center ofrece las siguientes ventajas:
La capacidad de aplicar la autorización a nivel de tabla y un control de acceso detallado con las identidades de Identity Center en las tablas de los catálogos de datos de AWS Glue administrados por Lake Formation.
La capacidad de imponer la autorización con las identidades de Identity Center en los clústeres de Amazon Redshift.
Permite el seguimiento integral de las acciones de los usuarios para la auditoría.
La capacidad de imponer la autorización a nivel de prefijo de Amazon S3 con las identidades de Identity Center en los prefijos de Amazon S3 administrados por Concesiones de acceso a Amazon S3.
Casos de uso
Exploración y análisis interactivos de datos
Los ingenieros de datos utilizan sus identidades corporativas para acceder sin problemas a los datos de varias cuentas de AWS y analizarlos. A través de SageMaker Studio, ejecutan sesiones interactivas de Spark mediante AWS Glue ETL y se conectan a varios orígenes de datos, incluidos Amazon S3 y el catálogo de datos de AWS Glue. A medida que los ingenieros exploran los conjuntos de datos, Spark aplica controles de acceso detallados definidos en Lake Formation en función de sus identidades, para garantizar que solo puedan ver los datos autorizados. Todas las consultas y transformaciones de datos se registran con la identidad del usuario, lo que crea un registro de auditoría claro. Este enfoque simplificado permite la creación rápida de prototipos de nuevos productos de análisis y, al mismo tiempo, mantiene una estricta gobernanza de datos en todos los entornos de cliente.
Preparación de datos e ingeniería de características
Los científicos de datos de varios equipos de investigación colaboran en proyectos complejos mediante una plataforma de datos unificada. Inician sesión en Sagemaker Studio con sus credenciales corporativas y acceden inmediatamente a un enorme lago de datos compartido que abarca varias cuentas de AWS. A medida que comienza la ingeniería de características para los nuevos modelos de machine learning, las sesiones de Spark ejecutadas a través de AWS Glue ETL refuerzan las políticas de seguridad a nivel de columnas y filas de Lake Formation en función de sus identidades propagadas. Los científicos pueden preparar los datos y diseñar características de manera eficiente con herramientas conocidas, mientras que los equipos de cumplimiento tienen la seguridad de que cada interacción de datos se rastrea y audita automáticamente. Este entorno seguro y colaborativo acelera los procesos de investigación y, al mismo tiempo, mantiene los estrictos estándares de protección de datos que se exigen en los sectores regulados.
Funcionamiento

Un usuario inicia sesión en aplicaciones orientadas al cliente (Sagemaker AI o aplicaciones personalizadas) con su identidad corporativa a través de IAM Identity Center. A continuación, esta identidad se propaga en todo el proceso de acceso a los datos.
El usuario autenticado inicia las sesiones interactivas de AWS AWS Glue, que funcionan como motor de cómputo para el procesamiento de datos. Estas sesiones mantienen el contexto de identidad del usuario durante todo el flujo de trabajo.
AWS Lake Formation y el catálogo de datos de AWS Glue trabajan en conjunto para aplicar controles de acceso detallados. Lake Formation aplica políticas de seguridad basadas en la identidad propagada del usuario, mientras que Concesiones de acceso a Amazon S3 proporciona capas de permisos adicionales, lo que garantiza que los usuarios solo puedan acceder a los datos que estén autorizados a ver.
Por último, el sistema se conecta al almacenamiento de Amazon S3, donde residen los datos reales. Todos los accesos se rigen por las políticas de seguridad combinadas, lo que mantiene la gobernanza de datos y permite la exploración y el análisis interactivos de los datos. Esta arquitectura permite un acceso seguro a los datos basado en la identidad en varios servicios de AWS, al tiempo que mantiene una experiencia de usuario perfecta para los científicos e ingenieros de datos que trabajan con grandes conjuntos de datos.
Integraciones
Entorno de desarrollo administrado por AWS
Las siguientes aplicaciones orientadas al cliente administradas por AWS permiten la propagación de identidades de confianza con sesiones interactivas de AWS Glue:
Sagemaker Unified Studio
Siga estos pasos para utilizar la propagación de identidades de confianza con Sagemaker Unified Studio:
Configure el proyecto Sagemaker Unified Studio con la propagación de identidades de confianza habilitada como entorno de desarrollo orientado al cliente.
Configure Lake Formation para permitir un control de acceso detallado para las tablas de AWS Glue en función del usuario o grupo de IAM Identity Center.
Configure Concesiones de acceso a Amazon S3 para permitir el acceso temporal a las ubicaciones de datos subyacentes de Amazon S3.
Abra el espacio IDE JupyterLab de Sagemaker Unified Studio y seleccione AWS Glue como cómputo para la ejecución del cuaderno.
Entorno de cuaderno autoalojado administrado por el cliente
Para permitir la propagación de identidades de confianza para los usuarios de aplicaciones desarrolladas a medida, consulte Acceder a los servicios de AWS mediante programación con la propagación de identidades de confianza