Überlegungen zur Verwendung von EMR-Notebooks - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen zur Verwendung von EMR-Notebooks

Anmerkung

EMR Notebooks sind als EMR Studio-Workspaces in der Konsole verfügbar. Mit der Schaltfläche „Arbeitsbereich erstellen“ in der Konsole können Sie neue Notizbücher erstellen. Um auf Workspaces zuzugreifen oder diese zu erstellen, benötigen EMR-Notebook-Benutzer zusätzliche IAM-Rollenberechtigungen. Weitere Informationen finden Sie unter Amazon EMR Notebooks sind Amazon EMR Studio Workspaces in der Konsole und Amazon EMR-Konsole.

Berücksichtigen Sie beim Erstellen von Clustern und Entwickeln von Lösungen mit EMR-Notebooks die folgenden Voraussetzungen.

Cluster-Voraussetzungen

  • Amazon EMR Block Public Access aktivieren – Durch den eingehenden Zugriff auf einen Cluster können Cluster-Benutzer Notebook-Kernel ausführen. Stellen Sie sicher, dass nur autorisierte Benutzer auf den Cluster zugreifen können. Es wird dringend empfohlen, den öffentlichen Zugriff zu blockieren und eingehenden SSH-Datenverkehr auf vertrauenswürdige Quellen zu beschränken. Weitere Informationen finden Sie unter Verwenden Sie Amazon, um EMR den öffentlichen Zugriff zu blockieren und Steuerung des Netzwerkverkehrs mit Sicherheitsgruppen.

  • Kompatiblen Cluster verwenden – Ein Cluster, der an ein Notebook angefügt ist, muss die folgenden Voraussetzungen erfüllen:

    • Es werden nur Cluster, die mit Amazon EMR erstellt wurden, unterstützt. Sie können innerhalb von Amazon EMR unabhängig einen Cluster erstellen und dann ein EMR-Notebook anfügen. Sie können einen kompatiblen Cluster auch erstellen, wenn Sie ein EMR-Notebook erstellen.

    • Es werden nur Cluster, die mit Amazon EMR Version 5.18.0 oder höher erstellt wurden, unterstützt. Siehe Unterschiede in den Funktionalitäten nach Cluster-Release-Version.

    • Cluster, die mithilfe von Amazon-EC2-Instances mit AMD EPYC-Prozessoren erstellt wurden – zum Beispiel die Instance-Typen m5a.* und r5a.* – werden nicht unterstützt.

    • EMR-Notebooks funktioniert nur mit Clustern, die mit der VisibleToAllUsers-Einstellung auf true erstellt wurden. VisibleToAllUsers ist standardmäßig true.

    • Der Cluster muss innerhalb einer EC2-VPC gestartet werden. Öffentliche und private Subnetze werden unterstützt. Die EC2-Classic-Plattform wird nicht unterstützt.

    • Hadoop, Spark und Livy müssen auf dem Cluster installiert sein. Andere Anwendungen können installiert werden, aber EMR Notebook unterstützt derzeit nur Spark-Cluster.

      Wichtig

      Für Amazon-EMR-Versionen 5.32.0 und höher oder 6.2.0 und höher muss auf Ihrem Cluster auch die Jupyter Enterprise Gateway-Anwendung ausgeführt werden, um mit EMR-Notebooks zu funktionieren.

    • Cluster mit Kerberos-Authentifizierung werden nicht unterstützt.

    • Integrierte Cluster AWS Lake Formation unterstützen nur die Installation von Bibliotheken für Notebooks. Die Installation von Kerneln und Bibliotheken auf dem Cluster wird nicht unterstützt.

    • Cluster mit mehreren Primärknoten werden nicht unterstützt.

    • Cluster, die Amazon EC2 EC2-Instances verwenden, die auf AWS Graviton2 basieren, werden nicht unterstützt.

Unterschiede in den Funktionalitäten nach Cluster-Release-Version

Wir empfehlen dringend, EMR-Notebooks mit Clustern zu verwenden, die mit den Amazon-EMR-Versionen 5.30.0, 5.32.0 oder höher oder 6.2.0 oder höher erstellt wurden. Mit diesen Versionen führt EMR Notebooks-Kernel auf dem angeschlossenen Amazon-EMR-Cluster aus. Kernel und Bibliotheken können direkt auf dem Cluster-Primärknoten installiert werden. Die Verwendung von EMR-Notebooks mit diesen Cluster-Versionen hat folgende Vorteile:

  • Verbesserte Leistung – Notebook-Kernel werden auf Clustern mit von Ihnen ausgewählten EC2-Instance-Typen ausgeführt. Frühere Versionen führen Kernel auf einer spezialisierten Instance aus, die nicht in der Größe geändert, auf die nicht zugegriffen und die nicht angepasst werden kann.

  • Möglichkeit zum Hinzufügen und Anpassen von Kerneln – Sie können eine Verbindung zum Cluster herstellen, um Kernel-Pakete mit conda und pip zu installieren. Darüber hinaus wird die pip-Installation mithilfe von Terminal-Befehlen innerhalb von Notebook-Zellen unterstützt. In früheren Versionen waren nur vorinstallierte Kernel verfügbar (Python PySpark, Spark und SparkR). Weitere Informationen finden Sie unter Installieren von Kernels und Python-Bibliotheken auf einem Cluster-Primärknoten.

  • Möglichkeit, Python-Bibliotheken zu installieren – Sie können Python-Bibliotheken mit conda und pip auf dem Cluster-Primärknoten installieren. Wir empfehlen die Verwendung von conda. In früheren Versionen wurden nur Bibliotheken für für Notebooks unterstützt. PySpark

Unterstützte EMR-Notebooks-Features nach Cluster-Version
Cluster-Version Bibliotheken für Notebooks PySpark Kernel-Installation auf dem Cluster Installation der Python-Bibliothek auf Primärknoten

Früher als 5.18.0

EMR Notebooks werden nicht unterstützt

5.18.0–5.25.0

Nein

Nein

Nein

5.26.0–5-29.0

Ja

Nein

Nein

5.30.0

Ja

Ja

Ja

6.0.0

Nein

Nein

Nein

5.32.0 und höher und 6.2.0 und höher Ja Ja Ja

Limits für gleichzeitig angefügte EMR-Notebooks

Wenn Sie einen Cluster erstellen, der Notebooks unterstützt, beachten Sie den EC2-Instance-Typ des Cluster-Primärknotens. Die Anzahl der Notebooks, die gleichzeitig Code und Abfragen auf dem Cluster gleichzeitig ausführen können, wird durch Speicherbeschränkungen dieser EC2-Instance bestimmt.

EC2-Instance-Typ des Primärknotens Anzahl der EMR Notebooks

*.medium

2

*.large

4

*.xlarge

8

*.2xlarge

16

*.4xlarge

24

*.8xlarge

24

*.16xlarge

24

Jupyter Notebook und Python-Versionen

EMR-Notebooks führt Jupyter Notebook Version 6.0.2 und Python 3.6.5 aus, unabhängig von der Amazon-EMR-Version des angefügten Clusters.

Sicherheitsüberlegungen

Verwenden verschlüsselter S3-Standorte

Wenn Sie einen verschlüsselten Speicherort in Amazon S3 zum Speichern von Notebook-Dateien angeben, müssen Sie die Servicerolle für EMR Notebooks als Schlüsselbenutzer einrichten. Die Standard-Servicerolle ist EMR_Notebooks_DefaultRole. Wenn Sie einen AWS KMS Schlüssel für die Verschlüsselung verwenden, finden Sie weitere Informationen unter Verwenden von Schlüsselrichtlinien in AWS KMS im AWS Key Management Service Entwicklerhandbuch und im Support-Artikel zum Hinzufügen von Schlüsselbenutzern.

Verwendung von Cookies mit Hosting-Domains

Um die Sicherheit der Anwendungen außerhalb der Konsole zu erhöhen, die Sie möglicherweise mit Amazon EMR verwenden, sind die Anwendungs-Hosting-Domains in der Public Suffix List (PSL) registriert. Zu diesen Hosting-Domains gehören beispielsweise die folgenden: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Aus Sicherheitsgründen empfehlen wir Ihnen, Cookies mit einem __Host--Präfix zu verwenden, falls Sie jemals sensible Cookies im Standard-Domainnamen einrichten müssen. Diese Vorgehensweise hilft Ihnen dabei, Ihre Domain vor CSRF (Cross-Site Request Forgery Attempts, Anforderungsfälschung zwischen Websites)-Versuchen zu schützen. Weitere Informationen finden Sie auf der Set-Cookie-Seite im Mozilla Developer Network.