建立叢集 JupyterHub - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立叢集 JupyterHub

您可以 JupyterHub 使用 AWS Management Console、 AWS Command Line Interface或 Amazon 創建一個 Amazon EMR 集群EMRAPI。請確定建立叢集時,未選擇在完成步驟後自動終止 ( AWS CLI中的 --auto-terminate 選項)。此外,確保管理員和筆記本使用者可以存取您在建立叢集時使用的金鑰對。如需詳細資訊,請參閱 Amazon EMR 管理指南的使用 key pair SSH 登入資料。

JupyterHub 使用控制台創建集群

使用下列程序建立使用 Amazon EMR 主控台中的進階選項進行 JupyterHub 安裝的叢集。

若要建立使用 Amazon EMR 主控台 JupyterHub 安裝的 Amazon EMR 叢集
  1. 導覽至新的 Amazon EMR 主控台,然後從側邊導覽選取「切換至舊主控台」。如需有關切換至舊主控台時預期情況的詳細資訊,請參閱使用舊主控台

  2. 選擇 Create cluster (建立叢集),然後選擇 Go to advanced options (前往進階選項)

  3. Software Configuration (軟體組態) 中:

    • 對於「發行版本」,請選取 emr-5.36.2,然後選擇。 JupyterHub

    • 如果您使用 Spark,若要使用 AWS Glue 資料目錄做為 Spark 的中繼資料存放區SQL,請選取「用於 Spark 資料表中繼資料」。如需詳細資訊,請參閱 使用 AWS Glue 資料目錄做為 Spark 的中繼存放區 SQL

    • 對於編輯軟體設定,選擇輸入組態並指定值,或選擇JSON從 S3 載入並指定JSON組態檔案。如需詳細資訊,請參閱 配置 JupyterHub

  4. Add steps (optional) ((新增步驟) (選用)) 中,設定建立叢集時所要執行的步驟,請務必不要選取 Auto-terminate cluster after the last step is completed (完成最後一個步驟後,自動終止叢集),然後選擇 Next (下一步)

  5. 選擇 Hardware Configuration (硬體組態) 選項、Next (下一步)。如需詳細資訊,請參閱 Amazon EMR 管理指南中的設定叢集硬體和聯網

  6. 選擇 General Cluster Settings (一般叢集設定) 的選項、Next (下一步)

  7. 選擇 Security Options (安全選項)、指定一組金鑰對,然後選擇 Create Cluster (建立叢集)

使用建 JupyterHub 立叢集 AWS CLI

若要使用啟動叢集 JupyterHub,請使用指aws emr create-cluster令,並針對該--applications選項指定Name=JupyterHub。下列範例會在 Amazon 上啟動EMR具有兩個執行個EC2體 (一個主執行個體和一個核心執行個體) 的 JupyterHub叢集。此外,已啟用偵錯功能,日誌儲存於透過 --log-uri 所指定的 Amazon S3 位置。指定的 key pair 可讓您存取叢集中的 Amazon EC2 執行個體。

注意

包含 Linux 行接續字元 (\) 是為了提高可讀性。它們可以在 Linux 命令中移除或使用。對於 Windows,請將其移除或取代為插入符號 (^)。

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.2 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair