Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparer les données à l'aide de sessions AWS Glue interactives
AWS Glue Interactive Sessions est un environnement d'exécution Apache Spark sans serveur à la demande que les data scientists et les ingénieurs peuvent utiliser pour créer, tester et exécuter rapidement des applications de préparation et d'analyse des données.
Vous pouvez lancer une session AWS Glue interactive en démarrant un bloc-notes SageMaker Studio Classic. Lorsque vous créez votre bloc-notes Studio Classic, choisissez le bloc-notes intégré Glue PySpark
ou le Glue Spark
noyau. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n'avez pas besoin de provisionner ou de gérer un cluster ou une infrastructure de calcul. Après l'initialisation, vous pouvez explorer, exécuter des requêtes complexes AWS Glue Data Catalog, analyser et préparer les données de manière interactive à l'aide de Spark dans votre bloc-notes Studio Classic. Vous pouvez ensuite utiliser les données préparées pour créer, entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio Classic.
Avant de démarrer votre session AWS Glue interactive dans SageMaker Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l'accès à des ressources supplémentaires, telles qu'un compartiment de stockage Amazon S3, ce qui peut nécessiter des politiques supplémentaires. Pour plus d'informations sur les politiques IAM requises et supplémentaires, consultez Autorisations pour les sessions AWS Glue interactives dans SageMaker Studio Classic.
SageMaker Studio Classic fournit une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configuration de votre session AWS Glue interactive dans SageMaker Studio Classic
Les images et noyaux pris en charge pour la connexion à une session AWS Glue interactive sont les suivants :
-
Photos : SparkAnalytics 1,0, SparkAnalytics 2,0
-
Kernel : Glue Python [PySpark et Ray] et Glue Spark
Prérequis :
L' SparkAnalytics image que vous sélectionnez pour lancer votre AWS Glue session dans Studio Classic est une combinaison de deux frameworks : le SparkMagic framework (utilisé avec Amazon EMR) et. AWS Glue Pour cette raison, les conditions préalables des deux frameworks s'appliquent. Toutefois, vous n'êtes pas obligé de configurer le cluster Amazon EMR si vous prévoyez uniquement d'utiliser des sessions AWS Glue interactives. Avant de démarrer votre première session AWS Glue interactive dans Studio Classic, procédez comme suit :
-
Remplissez les conditions requises pour utiliser l' SparkMagic image. Pour obtenir la liste des prérequis, consultez la section Prérequis dans Préparer les données à grande échelle avec les blocs-notes Studio Classic.
-
Créez un rôle d'exécution avec des autorisations à la fois pour SageMaker Studio Classic AWS Glue et pour Studio. Ajoutez la politique gérée
AwsGlueSessionUserRestrictedServiceRole
et créez une politique personnalisée qui inclut les autorisationssts:GetCallerIdentity
,iam:GetRole
etIAM:Passrole
. Pour obtenir des instructions permettant de créer les autorisations nécessaires, consultez Autorisations pour les sessions AWS Glue interactives dans SageMaker Studio Classic. -
Créez un SageMaker domaine avec le rôle d'exécution que vous avez créé. Pour obtenir des instructions permettant de créer un domaine, consultez Configuration SageMaker.