在 EMR Studio 工作區中安裝內核和庫 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 EMR Studio 工作區中安裝內核和庫

每個 Amazon 工作EMR室工作區都隨附一組預先安裝的程式庫和核心。

在 Amazon 上執行的叢集上的內核和程式庫 EC2

當您使用在 Amazon 上執行的EMR叢集時,您也可以使用下列方式為 EMR Studio 自訂環境EC2:

  • 在叢集主節點上安裝 Jupyter 筆記本核心和 Python 程式庫 - 當您使用此選項安裝程式庫時,所有附接至相同叢集的工作區都會共用這些程式庫。您可以從筆記本儲存格內安裝核心或程式庫,或使用SSH叢集的主要節點連線時安裝核心或程式庫。

  • 使用筆記本範圍的程式庫 - 當工作區使用者從筆記本儲存格內安裝及使用程式庫時,這些程式庫僅供該筆記本使用。此選項可讓使用相同叢集的不同筆記本運作,而不必擔心程式庫版本發生衝突。

EMRStudio 工作區與EMR筆記本具有相同的基礎架構。您可以安裝和使用 Jupyter 筆記本內核和 Python 庫與EMR工作室與筆記本相同的方式。EMR如需說明,請參閱 安裝並使用核心和程式庫

集群上 Amazon EMR 上的內核和庫 EKS

EKS群集EMR上的 Amazon 包括 PySpark 和 Python 3.7 內核以及一組預先安裝的庫。Amazon EMR on EKS 不支援安裝其他程式庫或叢集。

EKS群集EMR上的每個 Amazon 都帶有以下 Python 和安裝的 PySpark 庫:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR無伺服器應用程式上的核心和程式庫

每個EMR無伺服器應用程式都隨附下列 Python 和已安裝的程式 PySpark 庫:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn