JupyterHub - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

JupyterHub

Le bloc-notes Jupyter est une application Web open source que vous pouvez utiliser pour créer et partager des documents qui contiennent du code interactif, des équations, des visualisations, et des textes narratifs. JupyterHubvous permet d'héberger plusieurs instances d'un serveur de bloc-notes Jupyter mono-utilisateur. Lorsque vous créez un cluster avec JupyterHub, Amazon EMR crée un conteneur Docker sur le nœud principal du cluster. JupyterHub, tous les composants requis pour Jupyter et Sparkmagic fonctionnent dans le conteneur.

Sparkmagic est une bibliothèque de noyaux qui permet aux blocs-notes Jupyter d'interagir avec Apache Spark exécuté sur Amazon EMR via Apache Livy un serveur pour Spark. REST Spark et Apache Livy sont installés automatiquement lorsque vous créez un cluster avec JupyterHub. Le noyau Python 3 par défaut pour Jupyter est disponible, ainsi que les noyaux PySpark 3 PySpark, et Spark disponibles avec Sparkmagic. Vous pouvez utiliser ces noyaux pour exécuter du code Spark ad hoc et des SQL requêtes interactives à l'aide de Python et Scala. Vous pouvez installer manuellement des noyaux supplémentaires dans le conteneur Docker. Pour plus d’informations, consultez Installation de noyaux et de bibliothèques supplémentaires.

Le schéma suivant décrit les composants d'Amazon EMR avec JupyterHub les méthodes d'authentification correspondantes pour les utilisateurs d'ordinateurs portables et l'administrateur. Pour plus d’informations, consultez Ajout d'utilisateurs et d'administrateurs de bloc-notes Jupyter.

JupyterHub architecture on EMR showing user authentication and component interactions.

Le tableau suivant répertorie la version JupyterHub incluse dans la dernière version de la série Amazon EMR 7.x, ainsi que les composants avec lesquels Amazon EMR installe. JupyterHub

Pour la version des composants installés JupyterHub dans cette version, voir Versions des composants de la version 7.2.0.

JupyterHub informations de version pour emr-7.2.0
Étiquette EMR de sortie Amazon JupyterHub Version Composants installés avec JupyterHub

emr-7.2.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Le tableau suivant répertorie la version JupyterHub incluse dans la dernière version de la série Amazon EMR 6.x, ainsi que les composants avec lesquels Amazon EMR installe. JupyterHub

Pour connaître la version des composants installés JupyterHub dans cette version, consultez la version 6.15.0 Versions des composants.

JupyterHub informations de version pour emr-6.15.0
Étiquette EMR de sortie Amazon JupyterHub Version Composants installés avec JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Le tableau suivant répertorie la version JupyterHub incluse dans la dernière version de la série Amazon EMR 5.x, ainsi que les composants avec lesquels Amazon EMR installe. JupyterHub

Pour la version des composants installés JupyterHub dans cette version, voir la version 5.36.2 Versions des composants.

JupyterHub informations de version pour emr-5.36.2
Étiquette EMR de sortie Amazon JupyterHub Version Composants installés avec JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Le noyau Python 3 inclus dans Amazon EMR est JupyterHub la version 3.6.4.

Les bibliothèques installées dans le jupyterhub conteneur peuvent varier entre les EMR versions d'Amazon et les EC2 AMI versions d'Amazon.

Pour lister les bibliothèques installées à l'aide de conda
  • Exécutez la commande suivante sur la ligne de commande du nœud principal :

    sudo docker exec jupyterhub bash -c "conda list"
Pour lister les bibliothèques installées à l'aide de pip
  • Exécutez la commande suivante sur la ligne de commande du nœud principal :

    sudo docker exec jupyterhub bash -c "pip freeze"