Tutorial: utilizzo di un notebook SageMaker con l'endpoint di sviluppo - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Tutorial: utilizzo di un notebook SageMaker con l'endpoint di sviluppo

In AWS Glue, puoi creare un endpoint di sviluppo e quindi creare un notebook SageMaker per sviluppare script ETL e Machine Learning. Un notebook SageMaker è un'istanza di calcolo di Machine Learning completamente gestita che esegue l'applicazione Jupyter Notebook.

  1. Nella console AWS Glue seleziona Dev endpoints (Endpoint di sviluppo) per passare all'elenco degli endpoint di sviluppo.

  2. Seleziona la casella di controllo accanto al nome di un endpoint di sviluppo che desideri utilizzare e nel menu Action (Azione), scegli Create SageMaker notebook (Creazione di un notebook SageMaker).

  3. Compilare la pagina Create and configure a notebook (Crea e configura un notebook) come segue:

    1. Immettere il nome di un notebook.

    2. In Attach to development endpoint (Collega a endpoint di sviluppo), verificare l'endpoint di sviluppo.

    3. Creare o scegliere un ruolo AWS Identity and Access Management (IAM).

      Si consiglia di creare un ruolo. Se si utilizza un ruolo esistente, assicurarsi di avere le autorizzazioni necessarie. Per ulteriori informazioni, consulta Fase 6: creare una policy IAM per i notebook SageMaker.

    4. (Facoltativo) Scegliere un VPC, una sottorete e uno o più gruppi di sicurezza.

    5. (Facoltativo) Scegliere una chiave di crittografia AWS Key Management Service.

    6. (Facoltativo) Aggiungere i tag per l'istanza del notebook.

  4. Seleziona Create Notebook (Crea notebook). Sulla pagina Notebooks (Notebook), scegli l'icona di aggiornamento in alto a destra e continua fino a quando la finestra Status (Stato) non mostra Ready.

  5. Selezionare la casella di controllo accanto al nuovo nome del notebook, quindi scegliere Open notebook (Apri notebook).

  6. Creare un nuovo notebook: nella pagina jupyter scegliere New (Nuovo), quindi scegliere Sparkmagic (PySpark).

    La schermata dovrebbe essere simile alla seguente:

    La pagina jupyter ha una barra dei menu, una barra degli strumenti e un ampio campo di testo in cui è possibile inserire le istruzioni.
  7. (Facoltativo) Nella parte superiore della pagina, scegliere Untitled (Senza titolo) e assegnare un nome al notebook.

  8. Per avviare un'applicazione Spark, immettere il seguente comando nel notebook e quindi nella barra degli strumenti scegliere Run (Esegui).

    spark

    Dopo una breve attesa, viene visualizzata la seguente risposta:

    La risposta del sistema mostra lo stato dell'applicazione Spark e restituisce il messaggio indicante che SparkSession è disponibile come 'spark'.
  9. Creare un frame dinamico ed eseguirvi una query: copiare, incollare ed eseguire il codice seguente, che restituisce il conteggio e lo schema della tabella persons_json.

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()