Verwenden Sie Amazon EMR-Cluster aus Studio Classic-Notebooks - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie Amazon EMR-Cluster aus Studio Classic-Notebooks

In diesem Abschnitt erfahren Sie, wie Sie einen Amazon EMR-Cluster von SageMaker Studio Classic-Notebooks aus erkennen, eine Verbindung zu ihm herstellen oder ihn beenden können.

Wenn Sie von SageMaker Studio Classic aus eine Verbindung zu Ihrem Amazon EMR-Cluster herstellen, können Sie sich bei Ihrem Cluster mit Kerberos, Lightweight Directory Access Protocol (LDAP) authentifizieren oder die Runtime-IAM-Rollenauthentifizierung verwenden. Welche Authentifizierungsmethode Sie wählen, hängt von der Konfiguration Ihres Clusters ab. In diesem Beispiel können Sie Apache Livy mit einem Network Load Balancer auf einem Kerberos-fähigen Amazon EMR-Cluster aufrufen, um einen Amazon EMR-Cluster einzurichten, der Kerberos verwendet. Alternativ können Sie sich die CloudFormation Beispielvorlagen mit Kerberos oder LDAP im Repository aws-samples/sagemaker-studio-emr ansehen. GitHub

Die Liste der verfügbaren Befehle für eine Verbindung zu einem Amazon EMR-Cluster je nach Authentifizierungsmethode finden Sie unter Geben Sie den Befehl zur Verbindung mit einem Amazon EMR-Cluster manuell ein, um eine Verbindung zu Ihrem Amazon EMR-Cluster herzustellen.

Unterstützte Images und Kernel für die Verbindung zu einem Amazon EMR-Cluster von Studio Classic SageMaker

SageMaker Studio Classic bietet integrierte Unterstützung für die Verbindung mit Amazon EMR-Clustern in den folgenden Images und Kernels:

  • DataScience — Python-3-Kernel

  • DataScience 2.0 — Python-3-Kernel

  • DataScience 3.0 — Python-3-Kernel

  • SparkAnalytics 1.0 — SparkMagic und PySpark Kernel

  • SparkAnalytics 2.0 — SparkMagic und Kernel PySpark

  • SparkMagic — SparkMagic und Kernel PySpark

  • PyTorch 1.8 — Python-3-Kernel

  • TensorFlow 2.6 — Python-3-Kernel

  • TensorFlow 2.11 — Python-3-Kernel

Diese Images und Kernel werden mit der Sagemaker-Studio-Analytics-Extension geliefert, einer Notebook-Erweiterung, die mithilfe von Apache Livy die Verbindung zu einem Remote-Spark-Cluster (Amazon EMR) über die Bibliothek ermöglicht. SparkMagic

Um über ein anderes integriertes oder Ihr eigenes Image eine Verbindung zu Amazon EMR-Clustern herzustellen, folgen Sie den Anweisungen unter Bring Your Own Image.

Bring Your Own Image

Um Ihr eigenes Image in SageMaker Studio Classic zu integrieren und Ihren Notebooks die Verbindung zu Amazon EMR-Clustern zu ermöglichen, installieren Sie die folgende Erweiterung sagemaker-studio-analytics-extension in Ihrem Kernel. Es unterstützt die Verbindung von SageMaker Studio Classic-Notebooks mit Spark-Clustern (Amazon EMR) über die SparkMagicBibliothek.

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

Um mit Kerberos-Authentifizierung eine Verbindung zu Amazon EMR herzustellen, müssen Sie außerdem den Kinit-Client installieren. Je nach Betriebssystem kann der Befehl zur Installation des Kinit-Clients unterschiedlich sein. Verwenden Sie den Befehl apt-get install -y -qq krb5-user, um ein Ubuntu-Image (auf Basis von Debian) mitzubringen.

Weitere Informationen zum Mitbringen Ihres eigenen Images in SageMaker Studio Classic finden Sie unter Bringen Sie Ihr eigenes SageMaker Bild mit.