Comment fonctionne Amazon EMR Studio - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comment fonctionne Amazon EMR Studio

Un Studio Amazon EMR est une ressource Amazon EMR que vous créez pour une équipe d’utilisateurs. Chaque studio est un environnement de développement autonome, intégré et basé sur le Web pour les blocs-notes Jupyter qui s’exécutent sur des clusters Amazon EMR. Les utilisateurs se connectent à un studio avec leurs informations d'identification d'entreprise.

Chaque EMR Studio que vous créez utilise les ressources suivantes AWS :

  • Cloud privé virtuel (VPC) Amazon avec des sous-réseaux : les utilisateurs exécutent des noyaux et des applications Studio sur Amazon EMR, et Amazon EMR sur des clusters EKS dans le VPC spécifié. Un EMR Studio peut se connecter à n'importe quel cluster dans les sous-réseaux que vous spécifiez lors de la création du studio.

  • Rôles IAM et politiques d'autorisation : pour gérer les autorisations des utilisateurs, vous créez des politiques d'autorisations IAM que vous associez à l'identité IAM d'un utilisateur ou à un rôle d'utilisateur. EMR Studio utilise également un rôle de service IAM et des groupes de sécurité pour interagir avec d'autres services AWS. Pour plus d'informations, consultez Contrôle d'accès et Définissez des groupes de sécurité pour contrôler le trafic réseau de EMR Studio.

  • Groupes de sécurité : EMR Studio utilise des groupes de sécurité pour établir un canal réseau sécurisé entre le studio et un cluster EMR.

  • Emplacement de sauvegarde Amazon S3 : EMR Studio enregistre le travail du bloc-notes dans un emplacement Amazon S3.

Les étapes suivantes expliquent comment créer et administrer un EMR Studio :

  1. Créez un studio dans votre environnement Compte AWS avec l'authentification IAM ou IAM Identity Center. Pour obtenir des instructions, consultez Configurer un Amazon EMR Studio.

  2. Attribuez un utilisateur ou un groupe à votre EMR Studio Utilisez des politiques d'autorisation pour définir des autorisations précises pour chaque utilisateur. Pour de plus amples informations, consultez la rubrique Attribuer et gérer les utilisateurs de EMR Studio.

  3. Commencez à surveiller les actions d'EMR Studio à l'aide d'événements AWS CloudTrail. Pour de plus amples informations, veuillez consulter Surveiller les actions d'Amazon EMR Studio.

  4. Offrez davantage d'options de cluster aux utilisateurs de Studio avec des modèles de clusters et Amazon EMR sur les points de terminaison gérés par EKS.

Authentification et connexion utilisateur

Amazon EMR Studio prend en charge deux modes d'authentification : le mode d'authentification IAM et le mode d'authentification IAM Identity Center. Le mode IAM utilise AWS Identity and Access Management (IAM), tandis que le mode IAM Identity Center utilise AWS IAM Identity Center. Lorsque vous créez un EMR Studio, vous choisissez le mode d'authentification pour tous les utilisateurs de ce studio.

Mode d'authentification IAM

Avec le mode d'authentification IAM, vous pouvez utiliser l'authentification IAM ou la fédération IAM.

L'authentification IAM vous permet de gérer les identités IAM telles que les utilisateurs, les groupes et les rôles dans IAM. Vous autorisez les utilisateurs à accéder à un studio avec des politiques d'autorisations IAM et un contrôle d'accès par attributs (ABAC).

La fédération IAM vous permet d'établir un lien de confiance entre un fournisseur d'identité (IdP) tiers et AWS afin que vous puissiez gérer les identités des utilisateurs par le biais de votre IdP.

Mode d'authentification IAM Identity Center

Le mode d'authentification IAM Identity Center vous permet d'accorder aux utilisateurs un accès fédéré à un EMR Studio. Vous pouvez utiliser IAM Identity Center pour authentifier les utilisateurs et les groupes à partir de votre répertoire IAM Identity Center, de votre annuaire d'entreprise existant ou d'un IdP externe tel qu'Azure Active Directory (AD). Vous gérez ensuite les utilisateurs avec votre fournisseur d'identité (IdP).

EMR Studio prend en charge l'utilisation des fournisseurs d'identité suivants pour IAM Identity Center :

Comment l'authentification affecte la connexion et l'attribution des utilisateurs

Le mode d'authentification que vous choisissez pour EMR Studio affecte la manière dont les utilisateurs se connectent à un studio, la manière dont vous attribuez un utilisateur à un studio et la manière dont vous autorisez (accordez des autorisations) les utilisateurs à effectuer des actions telles que la créer de nouveaux clusters Amazon EMR.

Le tableau suivant récapitule les méthodes de connexion à EMR Studio en fonction du mode d'authentification.

Options de connexion à EMR Studio par mode d'authentification
Mode d’authentification Méthode de connexion Description
  • IAM (authentification et fédération)

  • IAM Identity Center

URL EMR Studio

Les utilisateurs se connectent à un studio à l'aide de l'URL d'accès au studio. Par exemple, https://xxxxxxxxxxxxxxxxxxxxxxx.emrstudio-prod.us-east-1.amazonaws.com.

Lorsque vous utilisez l'authentification IAM, les utilisateurs saisissent les informations d'identification IAM. Lorsque vous utilisez la fédération IAM ou IAM Identity Center, EMR Studio redirige les utilisateurs vers l'URL de connexion de votre fournisseur d'identité pour saisir les informations d'identification.

Dans le contexte de la fédération d'identité, cette option de connexion est appelée connexion initiée par le fournisseur de services (SP).

  • IAM (fédération)

  • IAM Identity Center

Portail fournisseur d'identité (IdP)

Les utilisateurs se connectent au portail de votre fournisseur d'identité, tel que le portail Azure, et lancent la console Amazon EMR. Après avoir lancé la console Amazon EMR, les utilisateurs sélectionnent et ouvrent un studio dans la liste des studios.

Vous pouvez également configurer EMR Studio en tant qu'application SAML afin que les utilisateurs puissent se connecter à un studio spécifique depuis le portail de votre fournisseur d'identité. Pour obtenir des instructions, consultez Configurer un EMR Studio en tant qu'application SAML sur votre portail IdP.

Dans le contexte de la fédération d'identité, cette option de connexion est appelée connexion initiée par le fournisseur d'identité (IdP).

  • IAM (authentification)

AWS Management Console Les utilisateurs se connectent à AWS Management Console à l'aide des informations d'identification IAM et ouvrent un studio depuis la liste des studios de la console Amazon EMR.

Le tableau suivant décrit l'attribution et l'autorisation des utilisateurs pour EMR Studio par mode d'authentification.

Attribution et autorisation des utilisateurs EMR Studio par mode d'authentification
Mode d’authentification Attribution d'utilisateurs Autorisation utilisateur

IAM (authentification et fédération)

Autorisez l'action CreateStudioPresignedUrl dans une politique d'autorisations IAM rattachée à une identité IAM (utilisateur, groupe ou rôle).

Pour les utilisateurs fédérés, autorisez l'action CreateStudioPresignedUrl dans un IAM au sein de la politique d'autorisations que vous configurez pour le rôle IAM de la fédération.

Utilisez le contrôle d'accès par attributs (ABAC) pour spécifier le ou les studios auxquels l'utilisateur peut accéder.

Pour obtenir des instructions, consultez Affecter un utilisateur ou un groupe à un EMR studio.

Définissez des politiques d'autorisation IAM qui autorisent certaines actions EMR Studio.

Pour les utilisateurs natifs, rattachez la politique d'autorisations IAM à une identité IAM (utilisateur, groupe ou rôle). Pour les utilisateurs fédérés, autorisez des actions Studio au sein de la politique d'autorisations que vous configurez pour le rôle IAM de la fédération.

Pour de plus amples informations, veuillez consulter Configurer les autorisations utilisateur de EMR Studio pour Amazon EC2 ou Amazon EKS.

IAM Identity Center

Pour les Studios créés pour lesquels IdCUserAssignment est défini sur REQUIRED, associez les utilisateurs au Studio à une politique de session spécifiée. Pour de plus amples informations, veuillez consulter Affecter un utilisateur ou un groupe à un EMR studio.

Pour les studios créés pour lesquels IdCUserAssignment est défini sur OPTIONAL, tous les utilisateurs ou groupes Identity Center peuvent accéder au Studio.

Facultatif : définissez des politiques de session IAM qui autorisent certaines actions EMR Studio. Associez une politique de session à un utilisateur lorsque vous attribuez l'utilisateur à un studio.

Pour de plus amples informations, veuillez consulter Autorisations utilisateur pour le mode d'authentification IAM Identity Center.

Contrôle d'accès

Dans Amazon EMR Studio, vous configurez l'autorisation utilisateur avec des politiques basées sur l'identité (IAM) AWS Identity and Access Management. Dans ces politiques, vous spécifiez les actions et les ressources autorisées, ainsi que les conditions dans lesquelles les actions sont autorisées.

Autorisations utilisateur pour le mode d'authentification IAM

Pour définir les autorisations utilisateur lorsque vous utilisez l'authentification IAM pour EMR Studio, vous autorisez des actions telles que elasticmapreduce:RunJobFlow dans le cadre d'une politique d'autorisation IAM. Vous pouvez créer une ou plusieurs politiques d'autorisations à utiliser. Par exemple, vous pouvez créer une politique de base qui n'autorise pas un utilisateur à créer de nouveaux clusters Amazon EMR, et une autre politique qui autorise la création de clusters. Pour obtenir la liste des actions Studio, consultez AWS Identity and Access Management autorisations pour les utilisateurs de EMR Studio.

Autorisations utilisateur pour le mode d'authentification IAM Identity Center

Lorsque vous utilisez l'authentification IAM Identity Center, vous créez un rôle d'utilisateur EMR Studio unique. Le rôle d'utilisateur est un rôle IAM dédié qu'un studio assume lorsqu'un utilisateur se connecte.

Vous associez des politiques de session IAM au rôle d'utilisateur EMR Studio. Une politique de session est un type spécial de politique d'autorisation IAM qui limite ce qu'un utilisateur fédéré peut faire pendant une session de connexion à Studio. Les politiques de session vous permettent de définir des autorisations spécifiques pour un utilisateur ou un groupe sans créer plusieurs rôles d'utilisateur pour EMR Studio.

Lorsque vous attribuez des utilisateurs et des groupes à un studio, vous associez une politique de session à cet utilisateur ou à ce groupe afin d'appliquer des autorisations précises. Vous pouvez également mettre à jour la politique de session d'un utilisateur ou d'un groupe à tout moment. Amazon EMR stocke chaque association de politique de session que vous créez.

Pour plus d'informations sur les politiques de session, consultez Autorisations et politiques dans le Guide de l'utilisateur AWS Identity and Access Management.

Espaces de travail

Les Workspaces sont les principaux éléments constitutifs d'Amazon EMR Studio. Pour organiser les blocs-notes, les utilisateurs créent un ou plusieurs Workspaces dans un studio. Pour de plus amples informations, veuillez consulter Découvrir les bases de l'espace de Workspace.

À l'instar des Workspaces de JupyterLab, un Workspace préserve l'état du bloc-notes. Cependant, l'interface utilisateur de Workspace étend l'interface open source JupyterLab. Il offre des outils supplémentaires qui vous permettent de créer et de rattacher des clusters EMR, d'exécuter des tâches, d'explorer des exemples de blocs-notes et de lier des référentiels Git.

La liste suivante inclut les principales fonctionnalités des Workspaces EMR Studio :

  • La visibilité du Workspace est basée sur le studio. Les Workspaces que vous créez dans un studio ne sont pas visibles dans les autres studios.

  • Par défaut, un Workspace est partagé et peut être vu par tous les utilisateurs de Studio. Toutefois, un seul utilisateur peut ouvrir et travailler dans un Workspace à la fois. Pour travailler simultanément avec d'autres utilisateurs, vous pouvez Configuration de la collaboration dans Workspace

  • Lorsque vous activez la collaboration dans un Workspace, vous pouvez collaborer simultanément avec d'autres utilisateurs dans un Workspace. Pour de plus amples informations, veuillez consulter Configuration de la collaboration dans Workspace.

  • Les blocs-notes d'un Workspace partagent le même cluster EMR pour exécuter des commandes. Vous pouvez rattacher un Workspace à un cluster Amazon EMR exécuté sur Amazon EC2, ou à un cluster virtuel Amazon EMR sur EKS et à un point de terminaison géré.

  • Les Workspaces peuvent basculer vers une autre zone de disponibilité que vous associez aux sous-réseaux d'un studio. Vous pouvez arrêter et redémarrer un Workspace pour lancer le processus de basculement. Lorsque vous redémarrez un Workspace et que le studio est configuré pour accéder à plusieurs zones de disponibilité, EMR Studio lance le Workspace dans une autre zone de disponibilité au sein du VPC du studio. Si le studio ne possède qu'une seule zone de disponibilité, EMR Studio tente de lancer le Workspace dans un autre sous-réseau. Pour de plus amples informations, veuillez consulter Résoudre les problèmes de connectivité dans Workspace.

  • Un Workspace peut se connecter à des clusters dans n'importe quel sous-réseau rattaché à un studio.

Pour plus d'informations sur la création et la configuration des Workspaces EMR Studio, consultez Découvrir les bases de l'espace de Workspace.

Stockage pour ordinateurs portables dans Amazon EMR Studio

Lorsque vous utilisez un Workspace, EMR Studio enregistre automatiquement les cellules des fichiers de bloc-notes à une cadence régulière dans l'emplacement Amazon S3 rattaché à votre studio. Ce processus de sauvegarde préserve le travail entre les sessions afin que vous puissiez y revenir ultérieurement sans avoir à apporter de modifications à un référentiel Git. Pour de plus amples informations, veuillez consulter Enregistrer le contenu Workspace.

Lorsque vous supprimez un fichier de bloc-notes d'un Workspace, EMR Studio supprime pour vous la version de sauvegarde d'Amazon S3. Toutefois, si vous supprimez un Workspace sans supprimer au préalable ses fichiers de bloc-notes, les fichiers du bloc-notes restent dans Amazon S3 et continuent d'entraîner des frais de stockage. Pour en savoir plus, consultez Supprimer un Workspace et des fichiers de bloc-notes.