在 EMR Studio 工作区中安装内核和库 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 EMR Studio 工作区中安装内核和库

每个 Amazon EMR Studio 工作区都附带一组预安装的库和内核。

在 Amazon 上运行的集群上的内核和库 EC2

当您使用在 Amazon 上运行的EMR集群时,您还可以通过以下方式自定义 EMR Studio 的环境EC2:

  • 在集群主节点上安装 Jupyter notebook 内核和 Python 库 – 使用此选项安装库时,库由附加到同一集群的所有 Workspace 共享。您可以从笔记本电脑单元中安装内核或库,也可以使用SSH连接到群集的主节点时安装内核或库。

  • 使用笔记本范围内的库 — 当 Workspace 用户从笔记本电脑单元中安装和使用库时,这些库仅适用于该笔记本电脑。此选项允许同一集群的不同笔记本工作,而不必担心库版本冲突。

EMRStudio 工作区与EMR笔记本具有相同的底层架构。你可以像 Notebook 一样在 EMR Studio 中安装和使用 Jupyter 笔记本内核和 Python 库。EMR有关说明,请参阅 在 Studio 中EMR安装和使用内核和库

集群上的 Amazon EMR 上的EKS内核和库

EKS集群EMR上的 Amazon 包括 PySpark 和 Python 3.7 内核,以及一组预安装的库。Amaz EMR on on EKS 不支持安装其他库或集群。

EKS集群EMR上的每个 Amazon 都安装了以下 Python 和 PySpark 库:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR无服务器应用程序上的内核和库

每个EMR无服务器应用程序都安装了以下 Python 和 PySpark 库:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn