Erstellen Sie einen Cluster mit JupyterHub - Amazon EMR

Erstellen Sie einen Cluster mit JupyterHub

Sie können einen Amazon-EMR-Cluster mit JupyterHub mithilfe der AWS Management Console, AWS Command Line Interface oder der Amazon-EMR-API erstellen. Stellen Sie sicher, dass der Cluster nicht mit der Option zum automatischen Beenden nach Abschluss der Schritte angelegt wird (Option --auto-terminate in der AWS CLI). Stellen Sie außerdem sicher, dass Administratoren und Notebook-Benutzer auf das Schlüsselpaar zugreifen können, das Sie beim Erstellen des Clusters verwenden. Weitere Informationen finden Sie unter Verwenden eines Schlüsselpaars für SSH-Anmeldeinformationen im Verwaltungshandbuch für Amazon EMR.

Erstellen eines Clusters mit JupyterHub über die Konsole

Gehen Sie wie folgt vor, um einen Cluster mit JupyterHub unter Verwendung von Erweiterte Optionen in der Amazon-EMR-Konsole zu erstellen.

Einen Amazon-EMR-Cluster mit JupyterHub über die Amazon-EMR-Konsole erstellen
  1. Navigieren Sie zur neuen Amazon-EMR-Konsole und wählen Sie in der Seitennavigation die Option Zur alten Konsole wechseln aus. Weitere Informationen darüber, was Sie erwartet, wenn Sie zur alten Konsole wechseln, finden Sie unter Verwenden der alten Konsole.

  2. Wählen Sie Create Cluster (Cluster erstellen) und Go to advanced options (Zu erweiterten Optionen) aus.

  3. Unter Software Configuration (Softwarekonfiguration):

    • Wählen Sie für Version emr-5.36.1 und dann JupyterHub aus.

    • Wenn Sie Spark für den Einsatz des AWS Glue Data Catalog als Metastore für Spark SQL verwenden, wählen Sie Verwendung für Spark-Tabellen-Metadaten aus. Weitere Informationen finden Sie unter Verwenden Sie den AWS Glue Data Catalog als Metastore für Spark SQL.

    • Für Edit software settings (Softwareeinstellungen bearbeiten) wählen Sie die Option Enter configuration (Konfiguration auswählen) und geben Werte an, oder wählen Load JSON von S3 (JSON aus S3 laden) und geben eine JSON-Konfigurationsdatei an. Weitere Informationen finden Sie unter Konfigurieren von JupyterHub.

  4. Konfigurieren Sie unter Add steps (optional) (Schritte hinzufügen (optional)) die Schritte, die ausgeführt werden sollen, wenn der Cluster erstellt wird, stellen Sie sicher, dass Auto-terminate cluster after the last step is completed (Cluster automatisch beenden, nachdem der letzte Schritt ausgeführt wurde) nicht ausgewählt ist, und klicken Sie auf Next (Weiter).

  5. Wählen Sie die Option Hardware Configuration (Hardwarekonfiguration), Next (Weiter). Weitere Informationen finden Sie unter Konfigurieren von Cluster-Hardware und Netzwerken im Verwaltungshandbuch für Amazon EMR.

  6. Wählen Sie Optionen für General Cluster Settings (Allgemeine Cluster-Einstellungen), Next (Weiter).

  7. Wählen Sie Security Options (Sicherheitsoptionen), geben Sie ein Schlüsselpaar an und wählen Sie Create Cluster (Cluster erstellen).

Einen Cluster mit JupyterHub mithilfe der AWS CLI erstellen

Um einen Cluster mit JupyterHub zu starten, verwenden Sie den Befehl aws emr create-cluster und geben Sie Name=JupyterHub für die Option --applications an. Das folgende Beispiel startet einen JupyterHub-Cluster in Amazon EMR mit zwei EC2-Instances (eine Haupt- und eine Core-Instance). Außerdem ist das Debugging aktiviert, wobei die Protokolle am Amazon-S3-Speicherort gespeichert werden wie in --log-uri angegeben. Das angegebene Schlüsselpaar bietet Zugriff auf Amazon-EC2-Instances in dem Cluster.

Anmerkung

Linux-Zeilenfortsetzungszeichen (\) sind aus Gründen der Lesbarkeit enthalten. Sie können entfernt oder in Linux-Befehlen verwendet werden. Entfernen Sie sie unter Windows oder ersetzen Sie sie durch ein Caret-Zeichen (^).

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.1 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair