Connexion à un cluster Amazon EMR depuis Studio - Amazon SageMaker

Connexion à un cluster Amazon EMR depuis Studio

Ce guide explique comment vous connecter à un cluster Amazon EMR depuis SageMaker Studio avec le noyau PySpark sélectionné.

Pour connecter le cluster Amazon EMR avec le kernel PySpark sélectionné

  1. Après vous être connecté à Studio, si vous disposez d'une instance de bloc-notes Studio existante, ouvrez-la. Sinon, pour créer une nouvelle instance de bloc-notes, sélectionnez File (Fichier), puis sélectionnez New (Nouveau).

  2. Après avoir ouvert une instance de bloc-notes Studio, choisissez un noyau et une instance.

    Note

    Seul un sous-ensemble de noyaux peut se connecter à un cluster Amazon EMR. Les images prises en charge sont Data Science et SparkMagic. Les noyaux pris en charge sont PySpark de l'image SparkMagic et Python3 (IPython) de l'image Data Science. Studio prend en charge les noyaux PySpark et Scala.

    Pour changer de noyau, sélectionnez en haut à droite de l'interface utilisateur le noyau actuellement sélectionné où une fenêtre contextuelle apparaît. Sélectionnez ensuite un ,noyau de votre choix dans le menu déroulant du noyau. Enfin, sélectionnez le bouton Select (Sélectionner) pour apporter vos modifications.

  3. Après avoir sélectionné le noyau de votre choix, sélectionnez Cluster.

  4. Un écran d'interface utilisateur Connect to cluster (Se connecter au cluster) s'affiche. Choisissez un cluster et sélectionnez Connect (Se connecter). Tous les clusters Amazon EMR ne peuvent pas être connectés à Studio. Pour plus d'informations, consultez Perform interactive data processing using Spark in Studio Notebooks.

    1. Lorsque vous vous connectez à un cluster, il ajoute un bloc de code à une cellule active pour établir la connexion.

  5. Si le cluster auquel vous vous connectez n'utilise pas de connexion Kerberos ou LDAP (Lightweight Directory Access Protocol), vous serez invité à sélectionner le type d'informations d'identification. Vous pouvez sélectionner HTTP basic authentication (Authentification de base HTTP) ou No credential (Pas d'information d'identification).

  6. Une cellule active se remplit. Celle-ci contient les informations de connexion dont vous avez besoin pour vous connecter au cluster Amazon EMR que vous avez sélectionné.

    1. Lorsque le type d'authentification est Kerberos et HTTP Basic Auth, un widget est créé dans une cellule active pour vous permettre de fournir votre Username (Nom d'utilisateur) et votre Password (Mot de passe). La capture d'écran suivante montre une connexion réussie après avoir saisi ces informations d'identification.

    2. Si le cluster auquel vous vous connectez n'utilise pas Kerberos ou LDAP et que vous avez sélectionné No credentials, vous vous connecterez automatiquement à un cluster Amazon EMR. La capture d'écran suivante montre l'interface utilisateur une fois que les informations d'identification ont été saisies avec succès.

    • Cette étape est facultative. Si vous souhaitez modifier le cluster Amazon EMR auquel le bloc-notes Studio est connecté, sélectionnez Cluster en haut à droite de votre bloc-notes. Après avoir sélectionné Cluster, parcourez la liste des clusters et sélectionnez un autre cluster.

Pour plus d'informations sur les autorisations requises, consultez Autorisations nécessaires.

Connecter les clusters Amazon EMR entre comptes

Si vous avez configuré la découverte et la connectivité entre comptes, lorsque vous sélectionnez Cluster, tous les clusters des comptes Studio et distants s'affichent. Une fois que vous avez sélectionné Connect, Studio lance et établit une connexion au cluster Amazon EMR dans le compte distant. La capture d'écran suivante montre cette connexion.