Préparer les données à l'aide de sessions AWS Glue interactives - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparer les données à l'aide de sessions AWS Glue interactives

AWS Glue Interactive Sessions est un environnement d'exécution Apache Spark sans serveur à la demande que les data scientists et les ingénieurs peuvent utiliser pour créer, tester et exécuter rapidement des applications de préparation et d'analyse des données.

Vous pouvez lancer une session AWS Glue interactive en démarrant un bloc-notes SageMaker Studio Classic. Lorsque vous créez votre bloc-notes Studio Classic, choisissez le bloc-notes intégré Glue PySpark ou le Glue Spark noyau. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n'avez pas besoin de provisionner ou de gérer un cluster ou une infrastructure de calcul. Après l'initialisation, vous pouvez explorer, exécuter des requêtes complexes AWS Glue Data Catalog, analyser et préparer les données de manière interactive à l'aide de Spark dans votre bloc-notes Studio Classic. Vous pouvez ensuite utiliser les données préparées pour créer, entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio Classic.

Avant de démarrer votre session AWS Glue interactive dans SageMaker Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l'accès à des ressources supplémentaires, telles qu'un compartiment de stockage Amazon S3, ce qui peut nécessiter des politiques supplémentaires. Pour plus d'informations sur les politiques IAM requises et supplémentaires, consultez Autorisations pour les sessions AWS Glue interactives dans SageMaker Studio Classic.

SageMaker Studio Classic fournit une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configuration de votre session AWS Glue interactive dans SageMaker Studio Classic

Les images et noyaux pris en charge pour la connexion à une session AWS Glue interactive sont les suivants :

  • Photos : SparkAnalytics 1,0, SparkAnalytics 2,0

  • Kernel : Glue Python [PySpark et Ray] et Glue Spark

Prérequis :

L' SparkAnalytics image que vous sélectionnez pour lancer votre AWS Glue session dans Studio Classic est une combinaison de deux frameworks : le SparkMagic framework (utilisé avec Amazon EMR) et. AWS Glue Pour cette raison, les conditions préalables des deux frameworks s'appliquent. Toutefois, vous n'êtes pas obligé de configurer le cluster Amazon EMR si vous prévoyez uniquement d'utiliser des sessions AWS Glue interactives. Avant de démarrer votre première session AWS Glue interactive dans Studio Classic, procédez comme suit :