JupyterHub - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

JupyterHub

Jupyter Notebook ist eine Open-Source-Webanwendung, mit der Sie Dokumente erstellen und freigeben können, die Live-Code, Gleichungen, Visualisierungen und narrativen Text enthalten. JupyterHub ermöglicht es Ihnen, mehrere Instances eines Jupyter-Notebook-Servers zu hosten. Wenn Sie mit JupyterHub einen Cluster anlegen, erstellt Amazon EMR einen Docker-Container auf dem Master-Knoten des Clusters. JupyterHub, alle erforderlichen Komponenten für Jupyter und Sparkmagic werden innerhalb des Containers ausgeführt.

Sparkmagic ist eine Kernel-Bibliothek, mit der Jupyter-Notebooks mit Apache Spark auf Amazon EMR über Apache Livy interagieren können, einem REST-Server für Spark. Spark und Apache Livy werden automatisch installiert, wenn Sie mit einen Cluster erstellen.JupyterHub. Der Standard-Python 3-Kernel für Jupyter ist zusammen mit den PySpark 3-, PySpark- und Spark-Kerneln verfügbar, die mit Sparkmagic verfügbar sind. Sie können diese Kernel verwenden, um ad-hoc Spark-Code und interaktive SQL-Abfragen mit Python und Scala auszuführen. Sie können zusätzliche Kernel innerhalb des Docker-Containers manuell installieren. Weitere Informationen finden Sie unter Installieren von zusätzlicher Kerneln und Bibliotheken.

Die folgende Abbildung zeigt die Komponenten von JupyterHub in Amazon EMR mit entsprechenden Authentifizierungsmethoden für Notebook-Benutzer und den Administrator. Weitere Informationen finden Sie unter Hinzufügen von Jupyter Notebook-Benutzern und Administratoren.

In der folgenden Tabelle wird die Version von JupyterHub, die in der neuesten Version von Amazon EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten aufgeführt, die Amazon EMR mit JupyterHub installiert.

Die Version der Komponenten, die mit JupyterHub in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.2.0.

JupyterHub-Versionsinformationen für emr-6.2.0
Amazon EMR-Versionsbezeichnung JupyterHub-Version Mit JupyterHub installierte Komponenten

emr-6.2.0

JupyterHub 1.1.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

In der folgenden Tabelle ist die Version von JupyterHub, die in der neuesten Version von Amazon EMR 5.x enthalten ist, zusammen mit den Komponenten aufgeführt, die Amazon EMR mit JupyterHub installiert.

Die Version der Komponenten, die mit JupyterHub in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 5.32.0.

JupyterHub-Versionsinformationen für emr-5.32.0
Amazon EMR-Versionsbezeichnung JupyterHub-Version Mit installierte KomponentenJupyterHub

emr-5.32.0

JupyterHub 1.1.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Der Python 3-Kernel in JupyterHub in Amazon EMR ist 3.6.4.

Die im jupyterhub-Container installierten Bibliotheken können zwischen Amazon EMR-Versionen und Amazon EC2-AMI-Versionen variieren.

Installierte Bibliotheken mit auflistenconda

  • Führen Sie den folgenden Befehl in der Befehlszeile des Master-Knotens aus:

    sudo docker exec jupyterhub bash -c "conda list"

Installierte Bibliotheken mit auflistenpip

  • Führen Sie den folgenden Befehl in der Befehlszeile des Master-Knotens aus:

    sudo docker exec jupyterhub bash -c "pip freeze"