JupyterHub - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

JupyterHub

O Caderno Jupyter é uma aplicação Web de código aberto que você pode usar para criar e compartilhar documentos que contêm código ativo, equações, visualizações e texto narrativo. JupyterHubpermite que você hospede várias instâncias de um servidor de notebook Jupyter de usuário único. Quando você cria um cluster com JupyterHub, a Amazon EMR cria um contêiner Docker no nó principal do cluster. JupyterHub, todos os componentes necessários para o Jupyter e o Sparkmagic funcionam dentro do contêiner.

O Sparkmagic é uma biblioteca de kernels que permite que os notebooks Jupyter interajam com o Apache Spark executado na Amazon EMR por meio de, que é um servidor para o Spark. Apache Livy REST O Spark e o Apache Livy são instalados automaticamente quando você cria um cluster com o. JupyterHub O kernel padrão do Python 3 para o Jupyter está disponível junto com os kernels PySpark 3, PySpark, e Spark que estão disponíveis com o Sparkmagic. Você pode usar esses kernels para executar código ad-hoc do Spark e consultas SQL interativas usando Python e Scala. Você pode instalar kernels adicionais dentro do contêiner Docker manualmente. Para ter mais informações, consulte Instalar Kernels e bibliotecas adicionais.

O diagrama a seguir mostra os componentes do JupyterHub na Amazon EMR com os métodos de autenticação correspondentes para usuários de notebooks e administradores. Para ter mais informações, consulte Adicionar usuários e administradores do Caderno Jupyter.

JupyterHub architecture on EMR showing user authentication and component interactions.

A tabela a seguir lista a versão JupyterHub incluída na versão mais recente da série Amazon EMR 7.x, junto com os componentes com os quais a Amazon é EMR instalada. JupyterHub

Para a versão dos componentes instalados JupyterHub nesta versão, consulte Versões de componentes da versão 7.2.0.

JupyterHub informações sobre a versão do emr-7.2.0
Gravadora EMR de lançamento da Amazon JupyterHub Versão Componentes instalados com JupyterHub

emr-7.2.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

A tabela a seguir lista a versão JupyterHub incluída na versão mais recente da série EMR 6.x da Amazon, junto com os componentes com os quais a Amazon é EMR instalada. JupyterHub

Para a versão dos componentes instalados JupyterHub nesta versão, consulte Versões de componentes da versão 6.15.0.

JupyterHub informações da versão do emr-6.15.0
Gravadora EMR de lançamento da Amazon JupyterHub Versão Componentes instalados com JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

A tabela a seguir lista a versão JupyterHub incluída na versão mais recente da série Amazon EMR 5.x, junto com os componentes com os quais a Amazon é EMR instalada. JupyterHub

Para a versão dos componentes instalados JupyterHub nesta versão, consulte Versões de componentes da versão 5.36.2.

JupyterHub informações da versão do emr-5.36.2
Gravadora EMR de lançamento da Amazon JupyterHub Versão Componentes instalados com JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

O kernel do Python 3 incluído na JupyterHub Amazon EMR é o 3.6.4.

As bibliotecas instaladas no jupyterhub contêiner podem variar entre as versões de EMR lançamento da Amazon e as EC2 AMI versões da Amazon.

Para listar bibliotecas instaladas usando o conda
  • Execute o seguinte comando na linha de comandos do nó principal:

    sudo docker exec jupyterhub bash -c "conda list"
Para listar bibliotecas instaladas usando o pip
  • Execute o seguinte comando na linha de comandos do nó principal:

    sudo docker exec jupyterhub bash -c "pip freeze"