JupyterHub でクラスターを作成する - Amazon EMR

JupyterHub でクラスターを作成する

Amazon EMR クラスターは、AWS Management Console、AWS Command Line Interface、または Amazon EMR API を使用して作成できます。ステップ完了後に自動終了するオプションでクラスターを作成していないことを確認します (AWS CLI の --auto-terminate オプション)。また、管理者とノートブックユーザーがクラスターの作成時に使用するキーペアにアクセスできることを確認します。詳細は、「Amazon EMR 管理ガイド」の「SSH 認証情報にキーペアを使用する」を参照してください。

コンソールを使用して JupyterHub を含むクラスターを作成する

以下の手順に従って、Amazon EMR コンソールで [Advanced Options] (詳細オプション) を使用し、JupyterHub を含むクラスターを作成します。

Amazon EMR コンソールを使用して、JupyterHub をインストールした Amazon EMR クラスターを作成するには
  1. 新しい Amazon EMR コンソールに移動し、サイドナビゲーションから [古いコンソールに切り替え] を選択します。古いコンソールに切り替えたときの動作の詳細については、「Using the old console」を参照してください。

  2. [Create cluster (クラスターの作成)]、[Go to advanced options (詳細オプションに移動する)] の順に選択します。

  3. [Software Configuration (ソフトウェア設定)] で次を実行します。

    • [リリース] では emr-5.36.1 を選択し、[JupyterHub] を選択します。

    • Spark を使用していて、AWS Glue Data Catalog を Spark SQL のメタストアとして使う場合は [Use for Spark table metadata] (Spark テーブルメタデータに使用) を選択します。詳細については、「Spark SQL のメタストアとしての AWS Glue Data Catalog の使用」を参照してください。

    • [Edit software settings (ソフトウェア設定の編集)] には [Enter configuration (設定の入力)] を選択し、値を指定するか [Load JSON from S3 (S3 からの JSON のロード)] を選び JSON 設定ファイルを指定します。詳細については、「JupyterHub の設定」を参照してください。

  4. クラスターを作成した時点で [Add steps (optional) (ステップの追加 (オプション))] で実行するステップを設定する場合は、[Auto-terminate cluster after the last step is completed (最後のステップが完了したらクラスターを自動終了する)] を選択せずに、[Next (次へ)] を選びます。

  5. [Hardware Configuration (ハードウェア構成)] オプション、[Next (次へ)] の順に選択します。詳細については、「Amazon EMR 管理ガイド」の「クラスターハードウェアとネットワークを構成する」を参照してください。

  6. [General Cluster Settings (クラスターの全般設定)] オプションを選択し [Next (次へ)] を選びます。

  7. [Security Options (セキュリティオプション)] でキーペアを指定し、[Create Cluster (クラスターの作成)] を選択します。

AWS CLI を使用して JupyterHub を含むクラスターを作成する

JupyterHub を含むクラスターを起動するには、aws emr create-cluster コマンドを使用し、--applications オプションに Name=JupyterHub を指定します。次の例は Amazon EMR で 2 つの EC2 インスタンス (マスターインスタンスとコアインスタンス) を使用する JupyterHub クラスターを起動します。デバッグも有効になっています。--log-uri が指定する Amazon S3 ロケーションにログが保存されています。指定されたキーペアはクラスター内の Amazon EC2 インスタンスへのアクセスを提供します。

注記

読みやすくするために、Linux 行連続文字 (\) が含まれています。Linux コマンドでは、これらは削除することも、使用することもできます。Windows の場合、削除するか、キャレット (^) に置き換えてください。

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.1 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair