JupyterHub - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

JupyterHub

Jupyter Notebook è un'applicazione web open source che puoi utilizzare per creare e condividere documenti contenenti codice in tempo reale, equazioni, visualizzazioni e testo narrativo. JupyterHubconsente di ospitare più istanze di un server notebook Jupyter per utente singolo. Quando crei un cluster con JupyterHub, Amazon EMR crea un contenitore Docker sul nodo master del cluster. JupyterHub, tutti i componenti necessari per Jupyter e Sparkmagic vengono eseguiti all'interno del contenitore.

Sparkmagic è una libreria di kernel che consente ai notebook Jupyter di interagire con Apache Spark in esecuzione su Amazon EMR tramite Apache Livy, che è un server REST per Spark. Spark e Apache Livy vengono installati automaticamente al momento della creazione di un cluster con JupyterHub. Il kernel Python 3 predefinito per Jupyter è disponibile insieme ai kernel PySpark 3 e Spark disponibili con Sparkmagic. PySpark Puoi utilizzare questi kernel per eseguire codice Spark ad-hoc e query SQL interattive utilizzando Python e Scala. Puoi installare kernel aggiuntivi all'interno del container Docker manualmente. Per ulteriori informazioni, consulta Installazione di kernel e librerie aggiuntive.

Il diagramma seguente illustra i componenti di JupyterHub Amazon EMR con i metodi di autenticazione corrispondenti per gli utenti di notebook e l'amministratore. Per ulteriori informazioni, consulta Aggiunta di utenti e amministratori Jupyter Notebook.

JupyterHub architecture on EMR showing user authentication and component interactions.

La tabella seguente elenca la versione JupyterHub inclusa nell'ultima release della serie Amazon EMR 7.x, insieme ai componenti con cui viene installato Amazon EMR. JupyterHub

Per la versione dei componenti installati con questa versione, consulta JupyterHub Versioni dei componenti della release 7.6.0.

JupyterHub informazioni sulla versione per emr-7.6.0
Etichetta di rilascio di Amazon EMR JupyterHub versione Componenti installati con JupyterHub

emr-7.6.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

La tabella seguente elenca la versione JupyterHub inclusa nell'ultima release della serie Amazon EMR 6.x, insieme ai componenti con cui viene installato Amazon EMR. JupyterHub

Per la versione dei componenti installati con questa versione, consulta JupyterHub Versioni dei componenti della release 6.15.0.

JupyterHub informazioni sulla versione per emr-6.15.0
Etichetta di rilascio di Amazon EMR JupyterHub versione Componenti installati con JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

La tabella seguente elenca la versione JupyterHub inclusa nell'ultima release della serie Amazon EMR 5.x, insieme ai componenti con cui viene installato Amazon EMR. JupyterHub

Per la versione dei componenti installati con questa versione, consulta JupyterHub Versioni dei componenti della release 5.36.2.

JupyterHub informazioni sulla versione per emr-5.36.2
Etichetta di rilascio di Amazon EMR JupyterHub versione Componenti installati con JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Il kernel Python 3 incluso in JupyterHub Amazon EMR è 3.6.4.

Le librerie installate all'interno del jupyterhub contenitore possono variare tra le versioni di rilascio di Amazon EMR e le versioni di Amazon EC2 AMI.

Per elencare le librerie installate utilizzando conda
  • Eseguire il seguente comando sulla riga di comando del nodo master:

    sudo docker exec jupyterhub bash -c "conda list"
Per elencare le librerie installate utilizzando pip
  • Eseguire il seguente comando sulla riga di comando del nodo master:

    sudo docker exec jupyterhub bash -c "pip freeze"