在 EMR Studio Workspace 中安装内核和库 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 EMR Studio Workspace 中安装内核和库

每个 Amazon EMR Studio Workspace 均附带一组预安装的库和内核。当您使用在 Amazon EC2 上运行的 EMR 集群时,您还可以通过以下方式为 EMR Studio 自定义环境:

  • 在集群主节点上安装 Jupyter 笔记本内核和 Python 库— 使用此选项安装库时,连接到同一集群的所有 Workspace 将共享这些库。您可以从笔记本电脑单元内安装内核或库,也可以在使用 SSH 连接到群集的主节点时安装内核或库。

  • 使用笔记本范围内的库 — 当 Workspace 用户从笔记本电脑单元中安装和使用库时,这些库仅适用于该笔记本电脑。此选项允许同一集群的不同笔记本工作,而不必担心库版本冲突。

EMR Studio 工作空间与 EMR 笔记本具有相同的底层架构。你可以像在 EMR Studio 中安装和使用 Jupyter Notebook 内核和 Python 库一样。有关说明,请参阅 安装并使用内核和库

Amazon EMR on EKS 集群上的内核和库

EKS 集群上的亚马逊 EMR 包括PySpark以及带有一组预安装库的 Python 3.7 内核。Amazon EMR on EKS 不支持安装其他的库或集群。

EKS 集群上的每个 Amazon EMR 都带有以下 Python 和PySpark已安装的库:

  • Python – boto3、cffi、future、ggplot、jupyter、kubernetes、matplotlib、numpy、pandas、plotly、pycryptodomex、py4j、requests、scikit-learn、scipy、seaborn

  • PySpark— ggplot、jupyter、matplotlib、numpy、pandas、plotly、pycryptodomex、py4j、requests、scikit-learn、scipy、seaborn