Préparer des données à grande échelle avec les blocs-notes Studio - Amazon SageMaker

Préparer des données à grande échelle avec les blocs-notes Studio

Studio offre aux scientifiques des données, aux ingénieurs en machine learning (ML) et aux praticiens généralistes les outils nécessaires pour effectuer de l'analytique et des préparations de données à grande échelle. À partir d'un bloc-notes Studio, vous pouvez visuellement parcourir, découvrir et vous connecter à Amazon EMR. Une fois connecté, vous pouvez explorer, visualiser et préparer de manière interactive des données de plusieurs pétaoctets pour le machine learning (ML) à l'aide d'Apache Spark, Hive et Presto.

L'analyse, la transformation et la préparation de grandes quantités de données sont des étapes fondamentales de tout flux de travail de science des données et de ML. L'exécution d'analytique interactive et de préparation des données sur les blocs-notes Amazon EMR et SageMaker Studio peut servir d'environnement unifié pour des flux de travail complets de science des données et d'ingénierie des données.

Studio prend également en charge un outil pour partager votre bloc-notes avec des collègues pour une collaboration via l'interface utilisateur. Grâce à cette capacité, vous pouvez désormais créer des flux de travail ML directement à partir des blocs-notes Studio. La connexion à un cluster Amazon EMR à l'aide de SageMaker Studio peut également aider à améliorer l'efficacité de l'équipe en rationalisant la configuration des flux de travail de ML.

Les images et noyaux pris en charge pour la connexion à un cluster Amazon EMR sont les suivants :

  • Images : Data Science, SparkMagic, PyTorch 1.8, TensorFlow 2.8

  • Noyau : noyaux PySpark et Spark pour l'image SparkMagic sous les applications en cours d'exécution et Python 3 (IPython) pour l'image Data Science.

Pour obtenir des instructions guidées sur la façon de se connecter à un cluster Amazon EMR à partir de Studio, consultez Perform interactive data engineering and data science workflows from SageMaker Studio notebooks.

Pour plus d'informations sur les autorisations requises, consultez Autorisations nécessaires.

Conditions préalables

  • Vous aurez besoin d'un accès à SageMaker Studio configuré pour utiliser le mode Amazon Virtual Private Cloud (Amazon VPC).

  • Tous les sous-réseaux utilisés par SageMaker Studio doivent être des sous-réseaux privés.

  • Si vous utilisez l'utilitaire sm-analytics pour configurer le noyau SparkMagic, suivez l'un de ces deux prérequis :

    • Assurez-vous que le point de terminaison de l'interface Amazon VPC est attaché à tous les sous-réseaux utilisés par SageMaker Studio.

    • Assurez-vous que tous les sous-réseaux utilisés par SageMaker Studio sont acheminés pour utiliser une passerelle NAT. Pour plus d'informations, veuillez consulter Passerelles NAT.

  • Si l'un des points suivants s'applique à vous, vous devez avoir installé Spark et Livy lorsque vous utilisez Amazon EMR.

    • Votre cluster Amazon EMR se trouve dans le même Amazon VPC que Studio.

    • Votre cluster se trouve dans un Amazon VPC connecté à Amazon VPC dans Studio.

  • Les groupes de sécurité d'Amazon SageMaker Studio et d'Amazon EMR doivent autoriser l'accès réciproque.

  • Votre groupe de sécurité Amazon EMR doit ouvrir le port 8998, afin qu'Amazon SageMaker Studio puisse communiquer avec le cluster Spark via Livy. Pour plus d'informations sur la configuration du groupe de sécurité, veuillez consulter Build Amazon SageMaker Notebooks Backed by Spark in Amazon EMR.

  • Pour vous connecter à un cluster Amazon EMR depuis Studio, vous devez d'abord accéder à SageMaker Studio. Si vous n'avez pas configuré SageMaker Studio, suivez le Guide de démarrage.

  • Si vous avez créé un domaine lors de la configuration de Studio, la découverte d'un cluster Amazon EMR à partir de Studio devrait être disponible pour vous.

Importer votre propre image

Si vous souhaitez apporter votre propre image, installez d'abord les dépendances suivantes sur votre noyau. La liste suivante montre les commandes pip avec le nom de la bibliothèque que vous allez installer.

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

Vous pouvez mettre à jour manuellement les bibliothèques de la liste précédente, s'il ne s'agit pas de la dernière version.

Si vous souhaitez vous connecter à Amazon EMR avec l'authentification Kerberos, vous devez installer le client kinit. Selon votre système d'exploitation, la commande d'installation du client kinit peut varier. Pour apporter une image Ubuntu (basée sur Debian), utilisez la commande apt-get install -y -qq krb5-user.