Installation de noyaux et de bibliothèques dans un Workspace EMR Studio - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Installation de noyaux et de bibliothèques dans un Workspace EMR Studio

Chaque Amazon EMR Studio est livré avec un ensemble de bibliothèques et de noyaux pré-installés.

Noyaux et bibliothèques sur les clusters exécutés sur Amazon EC2

Lorsque vous utilisez des clusters EMR exécutés sur Amazon EC2, vous pouvez également personnaliser l'environnement d'EMR Studio de la manière suivante :

  • Installer les noyaux bloc-notes Jupyter et les bibliothèques Python sur un nœud primaire du cluster : lorsque vous installez des bibliothèques à l'aide de cette option, tous les Workspaces rattachés au même cluster partagent ces bibliothèques. Vous pouvez installer des noyaux ou des bibliothèques à partir d'une cellule de bloc-notes ou lorsque vous êtes connecté via SSH au nœud primaire d'un cluster.

  • Utiliser des bibliothèques adaptées à un bloc-notes : lorsque les utilisateurs de Workspace installent et utilisent des bibliothèques depuis une cellule de bloc-notes, ces bibliothèques ne sont disponibles que pour ce bloc-notes. Cette option permet à différents blocs-notes utilisant le même cluster de fonctionner sans se soucier des conflits de versions de bibliothèque.

Les Workspaces EMR Studio ont la même architecture sous-jacente que les bloc-notes EMR. Vous pouvez installer et utiliser les noyaux bloc-notes Jupyter ainsi que les bibliothèques Python avec EMR Studio de la même manière que vous le feriez avec les bloc-notes EMR. Pour obtenir des instructions, veuillez consulter Installation et utilisation des noyaux et des bibliothèques.

Noyaux et bibliothèques sur les clusters Amazon EMR sur EKS

Les clusters Amazon EMR sur EKS incluent les noyaux et PySpark Python 3.7 avec un ensemble de bibliothèques préinstallées. Amazon EMR sur EKS ne prend pas en charge l'installation de bibliothèques ou de clusters supplémentaires.

Chaque cluster Amazon EMR on EKS est livré avec le Python et les PySpark bibliothèques suivants installés :

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

Noyaux et bibliothèques sur les applications EMR sans serveur

Chaque application EMR Serverless est livrée avec le Python et PySpark les bibliothèques suivants installés :

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn