Kernel und Bibliotheken in einem EMR Studio Workspace installieren - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kernel und Bibliotheken in einem EMR Studio Workspace installieren

Jedes Amazon EMR Studio Workspace wird mit einer Reihe vorinstallierter Bibliotheken und Kernel ausgeliefert.

Kernel und Bibliotheken auf Clustern, die auf Amazon EC2 laufen

Sie können die Umgebung für EMR Studio auch auf folgende Weise anpassen, wenn Sie EMR-Cluster verwenden, die auf Amazon EC2 ausgeführt werden:

  • Jupyter-Notebook-Kernel und Python-Bibliotheken auf einem Cluster-Primärknoten installieren – Wenn Sie Bibliotheken mit dieser Option installieren, teilen sich alle Workspaces, die demselben Cluster zugeordnet sind, diese Bibliotheken gemeinsam. Sie können Kernel oder Bibliotheken von einer Notebook-Zelle aus installieren oder während Sie über SSH mit dem Primärknoten eines Clusters verbunden sind.

  • Verwenden Sie Bibliotheken für Notebooks – Wenn Workspace-Benutzer Bibliotheken von einer Notebook-Zelle aus installieren und verwenden, sind diese Bibliotheken nur für dieses Notebook verfügbar. Mit dieser Option können verschiedene Notebooks, die denselben Cluster verwenden, arbeiten, ohne sich Gedanken über widersprüchliche Bibliotheksversionen machen zu müssen.

EMR Studio Workspaces haben dieselbe grundlegende Architektur wie EMR Notebooks. Sie können Jupyter-Notebook-Kernel und Python-Bibliotheken mit EMR Studio genauso installieren und verwenden wie mit EMR Notebooks. Anweisungen finden Sie unter Installieren und Verwenden von Kerneln und Bibliotheken.

Kernel und Bibliotheken in Amazon EMR in EKS-Clustern

Amazon EMR auf EKS-Clustern enthalten die Kernel PySpark und Python 3.7 mit einer Reihe vorinstallierter Bibliotheken. Amazon EMR in EKS unterstützt die Installation zusätzlicher Bibliotheken oder Cluster nicht.

Auf jedem Amazon EMR on EKS-Cluster sind das folgende Python und die folgenden PySpark Bibliotheken installiert:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

Kernel und Bibliotheken für EMR-Serverless-Anwendungen

In jeder EMR Serverless-Anwendung sind das folgende Python und die folgenden PySpark Bibliotheken installiert:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn