Amazon EMR
Amazon EMR リリースガイド

JupyterHub

Jupyter ノートブック は、ライブコード、方程式、視覚化、音声テキストを含むドキュメントの作成や共有に使用できるオープンソースのウェブアプリケーションです。 JupyterHub を使うと、シングルユーザーモードの Jupyter ノートブックサーバーの複数のインスタンスをホストできます。JupyterHub を使用してクラスターを作成すると、Amazon EMR がクラスターのマスターノードで Docker コンテナを作成します。Jupyter に必要なすべてのコンポーネントの JupyterHub と Sparkmagic はコンテナ内で実行されます。

Sparkmagic は Jupyter ノートブックが Amazon EMR で実行されている Apache Spark (Spark の REST サーバーである Apache Livy を使用) と連携できるようにするカーネルのライブラリです。Spark と Apache Livy は JupyterHub. を使用してクラスターを作成する時に自動的にインストールされます。Sparkmagic で使用可能な PySpark 3、PySpark、SparkR、Spark カーネルと同様に、Jupyter のデフォルトの Python 3 カーネルを利用することができます。こうしたカーネルを使用して臨時の Spark コードや、Python、R、Scala を使ったインタラクティブな SQL クエリを実行できます。Docker コンテナ内で追加のカーネルを手動で追加することもできます。詳細については、「追加のカーネルとライブラリをインストールする」を参照してください。

次の図は、Amazon EMR の JupyterHub のコンポーネントと対応するノートブックユーザーと管理者の認証方法を示しています。詳細については、「Jupyter ノートブックのユーザーと管理者を追加する」を参照してください。

次の表は、Amazon EMR の最新リリースに含まれている JupyterHub のバージョンと、Amazon EMR で JupyterHub と共にインストールされるコンポーネントを示しています。

このリリースで JupyterHub と共にインストールされるコンポーネントのバージョンについては、リリース 5.28.0 のコンポーネントバージョンを参照してください。

JupyterHub emr-5.28.0 のバージョン情報

Amazon EMR リリースラベル JupyterHub バージョン JupyterHub でインストールされるコンポーネント

emr-5.28.0

JupyterHub 1.0.0

aws-sagemaker-spark-sdk、emrfs、emr-goodies、emr-ddb、hadoop-client、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、r、spark-client、spark-history-server、spark-on-yarn、spark-yarn-slave、livy-server、jupyterhub

Amazon EMR で JupyterHub に含まれている Python 3 カーネルは 3.6.4 です。

jupyterhub コンテナ内にインストールされているライブラリは Amazon EMR リリースバージョンと Amazon EC2 AMI バージョンで異なる場合があります。

conda を使用してインストール済みのライブラリをリストにする

  • マスターノードのコマンドラインで次のコマンドを実行します。

    sudo docker exec jupyterhub bash -c "conda list"

pip を使用してインストール済みのライブラリをリストにする

  • マスターノードのコマンドラインで次のコマンドを実行します。

    sudo docker exec jupyterhub bash -c "pip freeze"