EMR Studio Workspace에 커널 및 라이브러리 설치 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR Studio Workspace에 커널 및 라이브러리 설치

각 Amazon EMR Studio Workspace에는 사전 설치된 라이브러리 및 커널 세트가 함께 제공됩니다.

Amazon에서 실행되는 클러스터의 커널 및 라이브러리 EC2

Amazon 에서 실행되는 EMR 클러스터를 사용하는 경우 다음과 같은 방법으로 EMR Studio 환경을 사용자 지정할 수도 있습니다EC2.

  • Jupyter Notebook 커널과 Python 라이브러리를 클러스터 프라이머리 노드에 설치 - 이 옵션을 사용하여 라이브러리를 설치하면 동일한 클러스터에 연결된 모든 Workspace가 해당 라이브러리를 공유합니다. 노트북 셀 내에서 또는 를 사용하여 클러스터의 기본 노드SSH에 연결된 상태에서 커널 또는 라이브러리를 설치할 수 있습니다.

  • 노트북 범위 라이브러리 사용 - Workspace 사용자가 노트북 셀 내에서 라이브러리를 설치하고 사용하는 경우 해당 라이브러리는 해당 노트북에서만 사용할 수 있습니다. 이 옵션을 사용하면 동일한 클러스터를 사용하는 여러 노트북이 라이브러리 버전 충돌에 대한 걱정 없이 작동할 수 있습니다.

EMR Studio Workspaces는 EMR 노트북과 동일한 기본 아키텍처를 갖습니다. 노트북과 마찬가지로 EMR Studio에서 Jupyter Notebook 커널 및 Python 라이브러리를 설치하고 사용할 수 EMR 있습니다. 지침은 EMR Studio에서 커널 및 라이브러리 설치 및 사용 단원을 참조하십시오.

EMR EKS 클러스터의 Amazon에 있는 커널 및 라이브러리

EKS 클러스터EMR의 Amazon에는 사전 설치된 라이브러리 세트가 있는 PySpark 및 Python 3.7 커널이 포함됩니다. EMR 의 AmazonEKS은 추가 라이브러리 또는 클러스터 설치를 지원하지 않습니다.

EKS 클러스터EMR의 각 Amazon에는 다음 Python 및 PySpark 라이브러리가 설치되어 있습니다.

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR Serverless 애플리케이션의 커널 및 라이브러리

각 EMR Serverless 애플리케이션은 다음 Python 및 PySpark 라이브러리가 설치된 상태로 제공됩니다.

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn