JupyterHub - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

JupyterHub

Cuaderno de Jupyter es una aplicación web de código abierto que puede utilizar para crear y compartir documentos que contienen código activo, ecuaciones, visualizaciones y texto narrativo. JupyterHuble permite alojar varias instancias de un servidor portátil Jupyter de un solo usuario. Cuando creas un clúster con JupyterHub, Amazon EMR crea un contenedor Docker en el nodo principal del clúster. JupyterHub, todos los componentes necesarios para Jupyter y Sparkmagic se ejecutan en el contenedor.

Sparkmagic es una biblioteca de núcleos que permite a los portátiles Jupyter interactuar con Apache Spark que se ejecuta en Amazon a EMR través deApache Livy, que es un servidor para Spark. REST Spark y Apache Livy se instalan automáticamente al crear un clúster con. JupyterHub El núcleo de Python 3 predeterminado para Jupyter está disponible junto con los núcleos PySpark 3 PySpark, y Spark que están disponibles con Sparkmagic. Puedes usar estos núcleos para ejecutar código de Spark ad-hoc y SQL consultas interactivas mediante Python y Scala. Puede instalar kernels adicionales en el contenedor de Docker manualmente. Para obtener más información, consulte Instalación de kernels y bibliotecas adicionales.

El siguiente diagrama muestra los componentes de JupyterHub Amazon EMR con los métodos de autenticación correspondientes para los usuarios de portátiles y el administrador. Para obtener más información, consulte Agregar usuarios y administradores de Cuadernos de Jupyter.

JupyterHub architecture on EMR showing user authentication and component interactions.

En la siguiente tabla se muestra la versión JupyterHub incluida en la última versión de la serie Amazon EMR 7.x, junto con los componentes con los que Amazon realiza la EMR instalación. JupyterHub

Para ver la versión de los componentes instalados JupyterHub en esta versión, consulte Versiones de componentes de la versión 7.2.0.

JupyterHub información sobre la versión de emr-7.2.0
Etiqueta de EMR lanzamiento de Amazon JupyterHub Versión Componentes instalados con JupyterHub

emr-7.2.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

En la siguiente tabla se muestra la versión JupyterHub incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes con los que Amazon realiza la EMR instalación. JupyterHub

Para ver la versión de los componentes instalados JupyterHub en esta versión, consulte Versiones de componentes de la versión 6.15.0.

JupyterHub información sobre la versión de emr-6.15.0
Etiqueta de EMR lanzamiento de Amazon JupyterHub Versión Componentes instalados con JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

En la siguiente tabla se muestra la versión JupyterHub incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes con los que Amazon realiza la EMR instalación. JupyterHub

Para ver la versión de los componentes instalados JupyterHub en esta versión, consulte Versiones de componentes de la versión 5.36.2.

JupyterHub información sobre la versión de emr-5.36.2
Etiqueta de EMR lanzamiento de Amazon JupyterHub Versión Componentes instalados con JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

El núcleo de Python 3 incluido JupyterHub en Amazon EMR es el 3.6.4.

Las bibliotecas instaladas en el jupyterhub contenedor pueden variar entre las versiones de EMR lanzamiento de Amazon y las EC2 AMI versiones de Amazon.

Para enumerar las bibliotecas instaladas utilizando conda
  • Ejecute el siguiente comando en la línea de comandos del nodo principal:

    sudo docker exec jupyterhub bash -c "conda list"
Para enumerar las bibliotecas instaladas utilizando pip
  • Ejecute el siguiente comando en la línea de comandos del nodo principal:

    sudo docker exec jupyterhub bash -c "pip freeze"