Didacticiel : Utiliser un bloc-notes Amazon SageMaker avec votre point de terminaison de développement - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Didacticiel : Utiliser un bloc-notes Amazon SageMaker avec votre point de terminaison de développement

Dans AWS Glue, vous pouvez créer un point de terminaison de développement, puis créer un bloc-notes SageMaker pour aider à développer vos scripts ETL et machine learning. Un bloc-notes SageMaker est une instance de calcul de machine learning entièrement gérée, sur laquelle est exécutée l'application de bloc-notes Jupyter.

  1. Dans la console AWS Glue, choisissez Dev endpoints (Points de terminaisons de dév.) pour accéder à la liste des points de terminaison de développement.

  2. Sélectionnez la case à cocher en regard du nom d'un point de terminaison de développement que vous souhaitez utiliser et, dans le menu Action choisissez Create SageMaker notebook (Créer un bloc-notes SageMaker).

  3. Complétez la page Create and configure a notebook (Créer et configurer un bloc-notes) comme suit :

    1. Entrez un nom de bloc-notes.

    2. Sous Attach to development endpoint (Attacher au point de terminaison de développement), vérifiez le point de terminaison de développement.

    3. Créez ou sélectionnez un rôle AWS Identity and Access Management (IAM).

      La création d'un rôle est recommandée. Si vous utilisez un rôle existant, assurez-vous qu'il dispose des autorisations requises. Pour plus d'informations, consultez Étape 6 : créer une politique IAM pour les bloc-notes SageMaker.

    4. (Facultatif) Choisissez un VPC, un sous-réseau et un ou plusieurs groupes de sécurité.

    5. (Facultatif) Choisissez une clé de chiffrement AWS Key Management Service.

    6. (Facultatif) Ajoutez des balises pour l'instance de bloc-notes.

  4. Choisissez Create Notebook (Créer un bloc-notes). Sur la page Notebooks (Bloc-notes), choisissez l'icône d’actualisation en haut à droite, puis continuez jusqu'à ce que l'état Ready s'affiche.

  5. Sélectionnez la case à cocher en regard du nom du nouveau bloc-notes, puis choisissez Open notebook (Ouvrir le bloc-notes).

  6. Créer un nouveau bloc-notes : sur la page Jupyter choisissez New (Nouveau), puis Sparkmagic (PySpark).

    Votre écran doit maintenant avoir l'aspect suivant :

    La page jupyter comporte une barre de menus, une barre d'outils et un grand champ de texte dans lequel vous pouvez entrer des instructions.
  7. (Facultatif) En haut de la page, choisissez Untitled (Sans titre), et donnez un nom au bloc-notes.

  8. Pour démarrer une application Spark, entrez la commande suivante dans le bloc-notes, puis dans la barre d'outils, choisissez Run (Exécuter).

    spark

    Après un court délai, vous devriez voir la réponse suivante :

    La réponse système affiche l'état de l'application Spark, ainsi que le message suivant : SparkSession available as 'spark'.
  9. Créez un cadre dynamique et exécutez une requête sur celui-ci : copiez, collez et exécutez le code suivant, qui génère le nombre et le schéma de la table persons_json.

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()