JupyterHub - Amazon EMR

JupyterHub

Jupyter Notebook はオープンソースのウェブアプリケーションで、ライブコード、方程式、視覚化、音声テキストを含むドキュメントの作成や共有に使用することができます。JupyterHub を使うと、シングルユーザーモードの Jupyter Notebook サーバーの複数のインスタンスをホストできます。JupyterHub を使用してクラスターを作成すると、Amazon EMR がクラスターのマスターノードで Docker コンテナを作成します。Jupyter に必要なすべてのコンポーネントの JupyterHub と Sparkmagic はコンテナ内で実行されます。

Sparkmagic は Jupyter Notebook が Amazon EMR で実行されている Apache Spark (Spark の REST サーバーである Apache Livy を使用) と連携できるようにするカーネルのライブラリです。Spark と Apache Livy は JupyterHub を使用してクラスターを作成する時に自動的にインストールされます。Sparkmagic で使用可能な PySpark 3、PySpark、Spark カーネルと同様に、Jupyter のデフォルトの Python 3 カーネルを利用することができます。こうしたカーネルを使用して臨時の Spark コードや、Python、Scala を使ったインタラクティブな SQL クエリを実行できます。Docker コンテナ内で追加のカーネルを手動で追加することもできます。詳細については、「追加のカーネルとライブラリをインストールする」を参照してください。

次の図は、Amazon EMR の JupyterHub のコンポーネントと対応するノートブックユーザーと管理者の認証方法を示しています。詳細については、「Jupyter Notebook のユーザーと管理者を追加する」を参照してください。

次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている JupyterHub のバージョンと、Amazon EMR で JupyterHub と共にインストールされるコンポーネントを示しています。

このリリースで JupyterHub と共にインストールされるコンポーネントのバージョンについては、「Release 6.14.0 Component Versions」を参照してください。

emr-6.14.0 の JupyterHub バージョン情報
Amazon EMR リリースラベル JupyterHub バージョン JupyterHub と共にインストールされるコンポーネント

emr-6.14.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている JupyterHub のバージョンと、Amazon EMR で JupyterHub と共にインストールされるコンポーネントを示しています。

このリリースで JupyterHub と共にインストールされるコンポーネントのバージョンについては、「Release 6.14.0 Component Versions」を参照してください。

emr-5.36.1 の JupyterHub バージョン情報
Amazon EMR リリースラベル JupyterHub バージョン JupyterHub と共にインストールされるコンポーネント

emr-5.36.1

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Amazon EMR で JupyterHub に含まれている Python 3 カーネルは 3.6.4 です。

jupyterhub コンテナ内にインストールされているライブラリは Amazon EMR リリースバージョンと Amazon EC2 AMI バージョンで異なる場合があります。

conda を使用してインストール済みのライブラリをリストにする
  • マスターノードのコマンドラインで次のコマンドを実行します。

    sudo docker exec jupyterhub bash -c "conda list"
pip を使用してインストール済みのライブラリをリストにする
  • マスターノードのコマンドラインで次のコマンドを実行します。

    sudo docker exec jupyterhub bash -c "pip freeze"