Instale kernels e bibliotecas em um Studio Workspace EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Instale kernels e bibliotecas em um Studio Workspace EMR

Cada Amazon EMR Studio Workspace vem com um conjunto de bibliotecas e kernels pré-instalados.

Kernels e bibliotecas em clusters executados na Amazon EC2

Você também pode personalizar o ambiente do EMR Studio das seguintes maneiras ao usar EMR clusters em execução na AmazonEC2:

  • Instalar kernels do caderno Jupyter e bibliotecas Python em um nó primário do cluster: ao instalar bibliotecas usando esta opção, todos os Workspaces anexados ao mesmo cluster compartilham essas bibliotecas. Você pode instalar kernels ou bibliotecas de dentro de uma célula do notebook ou enquanto estiver conectado usando SSH o nó primário de um cluster.

  • Usar bibliotecas com escopo de cadernos: quando os usuários do Workspace instalam e usam bibliotecas a partir de uma célula de caderno, essas bibliotecas ficam disponíveis somente para esse caderno. Esta opção permite que diferentes cadernos que usam o mesmo cluster funcionem sem se preocupar com versões conflitantes da biblioteca.

EMROs espaços de trabalho do Studio têm a mesma arquitetura subjacente dos EMR notebooks. Você pode instalar e usar os kernels do Jupyter Notebook e as bibliotecas Python com o Studio da mesma forma que EMR faria com o Notebooks. EMR Para obter instruções, consulte Instalação e uso de kernels e bibliotecas.

Kernels e bibliotecas na Amazon EMR em clusters EKS

A Amazon EMR em EKS clusters inclui os kernels PySpark e Python 3.7 com um conjunto de bibliotecas pré-instaladas. O Amazon EMR on EKS não oferece suporte à instalação de bibliotecas ou clusters adicionais.

Cada EKS cluster Amazon EMR on vem com os seguintes Python e PySpark bibliotecas instaladas:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

Kernels e bibliotecas em aplicativos sem servidor EMR

Cada aplicativo EMR sem servidor vem com o seguinte Python e bibliotecas instaladas: PySpark

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn