Créez un cluster avec JupyterHub - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Créez un cluster avec JupyterHub

Vous pouvez créer un EMR cluster Amazon en JupyterHub utilisant le AWS Management Console AWS Command Line Interface, ou l'Amazon EMRAPI. Assurez-vous que le cluster n'est pas créé avec l'option d'arrêt automatique après exécution des étapes (option --auto-terminate dans l' AWS CLI). Assurez-vous également que les administrateurs et les utilisateurs du bloc-notes peuvent accéder à la paire de clés utilisée lors de la création du cluster. Pour plus d'informations, consultez la section Utiliser une paire de clés pour les SSH informations d'identification dans le guide EMR de gestion Amazon.

Création d'un cluster à JupyterHub l'aide de la console

Utilisez la procédure suivante pour créer un cluster JupyterHub installé à l'aide des options avancées de la EMR console Amazon.

Pour créer un EMR cluster Amazon JupyterHub installé à l'aide de la EMR console Amazon
  1. Accédez à la nouvelle EMR console Amazon et sélectionnez Basculer vers l'ancienne console dans la navigation latérale. Pour plus d'informations sur ce qu'implique le passage à l'ancienne console, consultez la rubrique Utilisation de l'ancienne console.

  2. Choisissez Créer un cluster et Go to advanced options (Aller aux options avancées).

  3. Sous Software Configuration (Configuration logicielle) :

    • Pour Release, sélectionnez emr-5.36.2, puis choisissez. JupyterHub

    • Si vous utilisez Spark, pour utiliser le catalogue de données AWS Glue comme métastore pour SparkSQL, sélectionnez Utiliser pour les métadonnées de table Spark. Pour plus d’informations, consultez Utiliser le catalogue de données AWS Glue comme métastore pour Spark SQL.

    • Pour Modifier les paramètres du logiciel, choisissez Enter la configuration et spécifiez des valeurs, ou choisissez Load JSON from S3 et spécifiez un fichier JSON de configuration. Pour plus d’informations, consultez Configuration JupyterHub.

  4. Sous Add steps (optional) (Ajouter des étapes (facultatif)), configurez les étapes à exécuter lorsque le cluster est créé, assurez-vous que Auto-terminate cluster after the last step is completed (Arrêter automatiquement le cluster après l'exécution de la dernière étape) n'est pas sélectionné, puis choisissez Next (Suivant).

  5. Choisissez les options Hardware Configuration (Configuration matérielle) et Next (Suivant). Pour plus d'informations, consultez Configurer le matériel et le réseau du cluster dans le Amazon EMR Management Guide.

  6. Choisissez les options pour General Cluster Settings (Paramètres de cluster généraux) et Next (Suivant).

  7. Choisissez Security Options (Options de sécurité) en spécifiant une paire de clés, puis choisissez Create Cluster (Créer un cluster).

Créez un cluster à JupyterHub l'aide du AWS CLI

Pour lancer un cluster avec JupyterHub, utilisez la aws emr create-cluster commande et, pour l'--applicationsoption, spécifiezName=JupyterHub. L'exemple suivant lance un JupyterHub cluster sur Amazon EMR avec deux EC2 instances (une instance principale et une instance principale). En outre, le débogage est activé et les journaux sont stockés dans l'emplacement Amazon S3, comme spécifié par --log-uri. La paire de clés spécifiée permet d'accéder aux EC2 instances Amazon du cluster.

Note

Les caractères de continuation de ligne Linux (\) sont inclus pour des raisons de lisibilité. Ils peuvent être supprimés ou utilisés dans les commandes Linux. Pour Windows, supprimez-les ou remplacez-les par un caret (^).

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.2 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair