Cómo funciona Amazon EMR Studio - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo funciona Amazon EMR Studio

Un Amazon EMR Studio es un recurso de Amazon EMR que se crea para un equipo de usuarios. Cada estudio es un entorno de desarrollo integrado basado en web autónomo para cuadernos de Jupyter que se ejecutan en clústeres de Amazon EMR. Los usuarios inician sesión en un estudio con sus credenciales corporativas.

Cada estudio de EMR que cree utiliza los siguientes recursos de AWS:

  • Una Amazon Virtual Private Cloud (VPC) con subredes: los usuarios ejecutan kernels y aplicaciones de Studio en Amazon EMR y clústeres de Amazon EMR en EKS de la VPC especificada. Un EMR Studio puede conectarse a cualquier clúster de las subredes que especifique al crear el estudio.

  • Roles y políticas de permisos de IAM: para administrar los permisos de los usuarios, debe crear políticas de permisos de IAM que se asocian a la identidad de IAM de un usuario o a un rol de usuario. EMR Studio también utiliza un rol de servicio de IAM y grupos de seguridad para interoperar con otros servicios de AWS. Para obtener más información, consulte Control de acceso y Definir grupos de seguridad para controlar el tráfico de red de EMR Studio.

  • Grupos de seguridad: EMR Studio usa grupos de seguridad para establecer un canal de red seguro entre el estudio y un clúster de EMR.

  • Una ubicación de copia de seguridad de Amazon S3: EMR Studio guarda el trabajo del cuaderno en una ubicación de Amazon S3.

Los siguientes pasos describen cómo crear y administrar un EMR Studio:

  1. Cree un estudio en su Cuenta de AWS con la autenticación de IAM o IAM Identity Center. Para obtener más información, consulte Configuración de un Amazon EMR Studio.

  2. Asigne usuarios o grupos al estudio. Utilice políticas de permisos para establecer permisos específicos para cada usuario. Para obtener más información, consulte el tema Asignar y administrar usuarios de EMR Studio.

  3. Comience a monitorear las acciones de EMR Studio con eventos de AWS CloudTrail. Para obtener más información, consulte Monitorear las acciones de Amazon EMR Studio.

  4. Ofrezca más opciones de clústeres a los usuarios de Studio con plantillas de clúster y puntos de conexión administrados de Amazon EMR en EKS.

Autenticación e inicio de sesión de los usuarios

Amazon EMR Studio admite dos modos de autenticación: el modo de autenticación de IAM y el modo de autenticación de IAM Identity Center. El modo de IAM usa AWS Identity and Access Management (IAM), mientras que el modo de IAM Identity Center usa AWS IAM Identity Center. Cuando crea un EMR Studio, debe elegir el modo de autenticación para todos los usuarios de ese estudio.

Modo de autenticación de IAM

Con el modo de autenticación de IAM, puede utilizar la autenticación de IAM o la federación de IAM.

La autenticación de IAM le permite administrar las identidades de IAM, como los usuarios, los grupos y los roles de IAM. Concede acceso a los usuarios a un estudio con políticas de permisos de IAM y el control de acceso basado en atributos (ABAC).

La federación de IAM le permite establecer la confianza entre un proveedor de identidades (IdP) externo y AWS, de modo que puede administrar las identidades de los usuarios a través de su IdP.

Modo de autenticación de IAM Identity Center

El modo de autenticación de IAM Identity Center permite conceder a los usuarios acceso federado a un EMR Studio. Puede usar IAM Identity Center para autenticar usuarios y grupos desde su directorio de IAM Identity Center, su directorio corporativo existente o un IdP externo, como Azure Active Directory (AD). A continuación, debe administrar los usuarios con su proveedor de identidades (IdP).

EMR Studio admite el uso de los siguientes proveedores de identidades para IAM Identity Center:

Cómo afecta la autenticación al inicio de sesión y a la asignación de usuarios

El modo de autenticación que elija para EMR Studio afecta a la forma en que los usuarios inician sesión en un estudio, a la forma en que asigna un usuario a un estudio y a la forma en que autoriza (otorga permisos a) los usuarios para que realicen acciones como la creación de nuevos clústeres de Amazon EMR.

En la siguiente tabla se resumen los métodos de inicio de sesión de EMR Studio según el modo de autenticación.

Opciones de inicio de sesión de EMR Studio por modo de autenticación
Modo de autenticación Método de inicio de sesión Descripción
  • IAM (autenticación y federación)

  • IAM Identity Center

URL de EMR Studio

Los usuarios inician sesión en un estudio mediante la URL de acceso al estudio. Por ejemplo, https://xxxxxxxxxxxxxxxxxxxxxxx.emrstudio-prod.us-east-1.amazonaws.com.

Los usuarios introducen las credenciales de IAM cuando se utiliza la autenticación de IAM. Cuando utiliza la federación de IAM o IAM Identity Center, EMR Studio redirige a los usuarios a la URL de inicio de sesión del proveedor de identidades para introducir las credenciales.

En el contexto de la federación de identidades, esta opción de inicio de sesión se denomina inicio de sesión iniciado por el proveedor de servicios (SP).

  • (Federación de) IAM

  • IAM Identity Center

Portal del proveedor de identidades (IdP)

Los usuarios inician sesión en el portal de su proveedor de identidades, como Azure Portal, e inician la consola de Amazon EMR. Tras lanzar la consola de Amazon EMR, los usuarios seleccionan y abren un estudio de la lista Studios.

También puede configurar EMR Studio como una aplicación SAML para que los usuarios puedan iniciar sesión en un estudio específico desde el portal de su proveedor de identidades. Para obtener instrucciones, consulte Para configurar un EMR Studio como una aplicación SAML en el portal de su IdP.

En el contexto de la federación de identidades, esta opción de inicio de sesión se denomina inicio de sesión iniciado por el proveedor de identidades (IdP).

  • IAM (autenticación)

AWS Management Console Los usuarios inician sesión en la AWS Management Console con las credenciales de IAM y abren un estudio de la lista Studios en la consola de Amazon EMR.

En la siguiente tabla se describe la asignación y autorización de usuarios en EMR Studio por modo de autenticación.

Asignación y autorización de usuarios de EMR Studio por modo de autenticación
Modo de autenticación Asignación de usuarios Autorización de usuarios

IAM (autenticación y federación)

Permita la acción CreateStudioPresignedUrl en una política de permisos de IAM asociada a una identidad de IAM (usuario, grupo o rol).

En el caso de los usuarios federados, permita la acción CreateStudioPresignedUrl en IAM en la política de permisos que configure para el rol de IAM que utilice para la federación.

Utilice el control de acceso basado en atributos (ABAC) para especificar el estudio o estudios a los que puede acceder el usuario.

Para ver las instrucciones, consulte Asignar un usuario o grupo a un EMR Studio.

Defina políticas de permisos de IAM que permitan determinadas acciones de EMR Studio.

En el caso de los usuarios nativos, asocie la política de permisos de IAM a una identidad de IAM (usuario, grupo o rol). En el caso de los usuarios federados, permita las acciones de Studio en la política de permisos que configure para el rol de IAM que utilice para la federación.

Para obtener más información, consulte Configurar los permisos de usuario de EMR Studio para Amazon EC2 o Amazon EKS.

IAM Identity Center

En el caso de un Studio creado con IdCUserAssignment en estado REQUIRED, asigne los usuarios al Studio con una política de sesión específica. Para obtener más información, consulte Asignar un usuario o grupo a un EMR Studio.

En el caso de un Studio creado con IdCUserAssignment en estado OPTIONAL, cualquier usuario o grupo de Identity Center puede acceder al Studio.

Opcional: defina políticas de sesión de IAM que permitan determinadas acciones de EMR Studio. Asigne una política de sesión a un usuario al asignar el usuario a un estudio.

Para obtener más información, consulte Permisos de usuario para el modo de autenticación de IAM Identity Center.

Control de acceso

En Amazon EMR Studio, debe configurar los permisos de autorización de usuarios con políticas de AWS Identity and Access Management (IAM) basadas en la identidad. Con estas políticas, debe especificar las acciones y los recursos permitidos, así como las condiciones en las que se permiten las acciones.

Permisos de usuario para el modo de autenticación de IAM

Para establecer los permisos de usuario al utilizar la autenticación de IAM en EMR Studio, debe permitir acciones como elasticmapreduce:RunJobFlow en una política de permisos de IAM. Puede crear una o más políticas de permisos para utilizarlas. Por ejemplo, puede crear una política básica que no permita a un usuario crear nuevos clústeres de Amazon EMR y otra política que sí permita la creación de clústeres. Para obtener una lista de las acciones de Studio, consulte Permisos de AWS Identity and Access Management para los usuarios de EMR Studio.

Permisos de usuario para el modo de autenticación de IAM Identity Center

Al utilizar la autenticación de IAM Identity Center, debe crear un único rol de usuario de EMR Studio. El rol de usuario es un rol de IAM dedicado que un estudio asume cuando un usuario inicia sesión.

Asocie las políticas de sesión de IAM al rol de usuario de EMR Studio. Una política de sesión es un tipo especial de política de permisos de IAM que limita lo que un usuario federado puede hacer durante una sesión de inicio de sesión en Studio. Las políticas de sesión le permiten establecer permisos específicos para un usuario o grupo sin crear varios roles de usuario para EMR Studio.

Al asignar usuarios y grupos a un estudio, debe asignar una política de sesión a ese usuario o grupo para aplicar permisos específicos. También puede actualizar la política de sesión de un usuario o grupo en cualquier momento. Amazon EMR almacena cada asignación de políticas de sesión que cree.

Para obtener más información sobre las políticas de sesión, consulte el tema Políticas y permisos en la Guía del usuario de AWS Identity and Access Management.

Workspaces

Los espacios de trabajo son los componentes principales de Amazon EMR Studio. Para organizar los cuadernos, los usuarios crean uno o más espacios de trabajo en un estudio. Para obtener más información, consulte Aprenda los conceptos básicos de los espacios de trabajo.

Al igual que los espacios de trabajo de JupyterLab, un espacio de trabajo conserva el estado del trabajo del cuaderno. Sin embargo, la interfaz de usuario del espacio de trabajo amplía la interfaz de código abierto de JupyterLab con herramientas adicionales que le permiten crear y asociar clústeres de EMR, ejecutar trabajos, explorar cuadernos de muestra y vincular repositorios de Git.

En la siguiente lista se incluyen las principales características de los espacios de trabajo de EMR Studio:

  • La visibilidad del espacio de trabajo se basa en Studio. Los espacios de trabajo que cree en un estudio no están visibles en otros estudios.

  • De forma predeterminada, los espacios de trabajo son compartidos y pueden verlos todos los usuarios de Studio. Sin embargo, solo un usuario puede abrir y trabajar en un espacio de trabajo a la vez. Para trabajar simultáneamente con otros usuarios, puede Configuración de la colaboración en el espacio de trabajo.

  • Puede colaborar simultáneamente con otros usuarios en un espacio de trabajo si activa la colaboración en el espacio de trabajo. Para obtener más información, consulte Configuración de la colaboración en el espacio de trabajo.

  • Los cuadernos de un espacio de trabajo comparten el mismo clúster de EMR para ejecutar comandos. Puede asociar un espacio de trabajo a un clúster de Amazon EMR que se ejecute en Amazon EC2 o en un clúster virtual y un punto de conexión administrado de Amazon EMR en EKS.

  • Los espacios de trabajo pueden cambiar a otra zona de disponibilidad que asocie a las subredes de un estudio. Puede detener y reiniciar un espacio de trabajo para iniciar el proceso de conmutación por error. Al reiniciar un espacio de trabajo, EMR Studio lanza el espacio de trabajo en una zona de disponibilidad diferente de la VPC del estudio cuando el estudio está configurado con acceso a varias zonas de disponibilidad. Si el estudio solo tiene una zona de disponibilidad, EMR Studio intenta lanzar el espacio de trabajo en una subred diferente. Para obtener más información, consulte Resolver problemas de conectividad con el espacio de trabajo.

  • Un espacio de trabajo puede conectarse a clústeres de cualquiera de las subredes asociadas al estudio.

Para obtener más información sobre cómo crear y configurar espacios de trabajo de EMR Studio, consulte Aprenda los conceptos básicos de los espacios de trabajo.

Almacenamiento de cuadernos en Amazon EMR Studio

Cuando utiliza un espacio de trabajo, EMR Studio guarda automáticamente las celdas de los archivos del cuaderno con una cadencia normal en la ubicación de Amazon S3 asociada a su estudio. Este proceso de copia de seguridad conserva el trabajo entre sesiones para que pueda volver a él más adelante sin tener que realizar cambios en un repositorio de Git. Para obtener más información, consulte Guardar contenido del espacio de trabajo.

Al eliminar un archivo de cuaderno de un espacio de trabajo, EMR Studio elimina automáticamente la versión de copia de seguridad de Amazon S3. Sin embargo, si elimina un espacio de trabajo sin eliminar primero los archivos del cuaderno, los archivos del cuaderno permanecerán en Amazon S3 y seguirán generando gastos de almacenamiento. Para obtener más información, consulte Eliminar un espacio de trabajo y archivos de cuaderno.