JupyterHub - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

JupyterHub

Jupyter 筆記本是一種可用於建立和共用文件的開放原始碼 web 應用程式,其中包含即時程式碼、方程式、視覺化和敘述文字。JupyterHub可讓您託管單一使用者 Jupyter 筆記本伺服器的多個執行個體。使用建立叢集時 JupyterHub,Amazon EMR 會在叢集的主節點上建立 Docker 容器。 JupyterHub,所有必需的組件 Jupyter,和 Sparkmagic 的容器內運行。

Sparkmagic 是一種核心的程式庫,可讓 Jupyter 筆記本透過 Apache Livy (適用於 Spark 的一種 REST 伺服器) 與在 Amazon EMR 上執行的 Apache Spark 互動。當您使 JupyterHub用建立叢集時,Spark 和 Apache Livy 會自動安裝。對於 Jupyter 的默認 Python 3 內核是可用的 PySpark 3 PySpark,和火花內核可用與 Sparkmagic 一起使用。您可以使用這些核心執行臨機操作 Spark 程式碼,並使用 Python 和 Scala 進行互動式 SQL 查詢。您可以在 Docker 容器手動安裝其他核心。如需詳細資訊,請參閱 安裝其他核心和程式庫

下圖說明 Amazon EMR JupyterHub 上的元件,以及適用於筆記型電腦使用者和管理員的對應身份驗證方法。如需詳細資訊,請參閱 新增 Jupyter 筆記本使用者和管理員

下表列出 Amazon EMR 7.x 系列最新版本中 JupyterHub 包含的版本,以及 Amazon EMR 安裝的元件。 JupyterHub

如需此發行版本 JupyterHub 中安裝的元件版本,請參閱 7.1.0 版元件版本

JupyterHub 適用於 EMR 7.1.0 的版本資訊
Amazon EMR 發行標籤 JupyterHub 版本 安裝的元件 JupyterHub

埃姆尔 -7.1.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

下表列出 Amazon EMR 6.x 系列最新版本中 JupyterHub 包含的版本,以及 Amazon EMR 安裝的元件。 JupyterHub

如需此發行版本 JupyterHub 中安裝的元件版本,請參閱版本 6.15.0 元件版本。

JupyterHub 適用於 EMR 6.15.0 的版本資訊
Amazon EMR 發行標籤 JupyterHub 版本 安裝的元件 JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

下表列出 Amazon EMR 5.x 系列最新版本中 JupyterHub 包含的版本,以及 Amazon EMR 安裝的元件。 JupyterHub

如需此發行版本 JupyterHub 中安裝的元件版本,請參閱版本 5.36.2 元件版本。

JupyterHub 適用於電腦 -5.36.2 的版本資訊
Amazon EMR 發行標籤 JupyterHub 版本 安裝的元件 JupyterHub

埃姆尔 -5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Amazon EMR 中包含 JupyterHub 的 Python 3 內核是 3.6.4。

jupyterhub 容器中安裝的程式庫,可能因 Amazon EMR 發行版本與 Amazon EC2 AMI 版本而異。

使用 conda 列出已安裝的程式庫。
  • 在主節點命令列上執行以下命令:

    sudo docker exec jupyterhub bash -c "conda list"
使用 pip 列出已安裝的程式庫。
  • 在主節點命令列上執行以下命令:

    sudo docker exec jupyterhub bash -c "pip freeze"