Tutorial: uso de un bloc de notas de SageMaker con su punto de conexión de desarrollo - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tutorial: uso de un bloc de notas de SageMaker con su punto de conexión de desarrollo

En AWS Glue, puede crear un punto de enlace de desarrollo y, a continuación, crear un bloc de notas de SageMaker para ayudar a desarrollar sus scripts de machine learning y ETL. Un bloc de notas de SageMaker es una instancia de computación de machine learning completamente administrado que ejecuta la aplicación de bloc de notas de Jupyter.

  1. En la consola de AWS Glue, seleccione Puntos de enlace de desarrollo para ir a la lista de puntos de enlace de desarrollo.

  2. Seleccione la casilla situada junto al nombre de un punto de enlace de desarrollo que desee utilizar y, en el menú Action (Acción), elija Create SageMaker notebook (Crear bloc de notas de SageMaker).

  3. Rellene la página Create and configure a notebook (Crear y configurar un bloc de notas) como se indica a continuación:

    1. Escriba un nombre para el bloc de notas.

    2. En Attach to development endpoint (Asociar a un punto de enlace de desarrollo), verifique el punto de enlace de desarrollo.

    3. Elija crear un rol AWS Identity and Access Management (IAM).

      Se recomienda crear un rol. Si utiliza un rol existente, asegúrese de que tiene los permisos necesarios. Para obtener más información, consulte Paso 6: Crear una política de IAM para blocs de notas de SageMaker.

    4. (Opcional) Elija una VPC, una subred y uno o varios grupos de seguridad.

    5. (Opcional) Elija una clave de cifrado de AWS Key Management Service.

    6. (Opcional) Añada etiquetas para la instancia de bloc de notas.

  4. Elija Create Notebook (Crear bloc de notas). En la página Notebooks (Blocs de notas), elija el icono de actualización que aparece en la parte superior derecha y continúe hasta que el Status (Estado) aparezca como Ready.

  5. Seleccione la casilla situada junto al nombre del bloc de notas nuevo y, a continuación, elija Open notebook (Abrir bloc de notas).

  6. Cree un bloc de notas nuevo: en la página de jupyter, elija New (Nuevo) y, a continuación, seleccione Sparkmagic (PySpark).

    La pantalla que aparece debe ser similar a la siguiente:

    
          La página de jupyter tiene una barra de menús, una barra de herramientas y un amplio campo de texto en el que puede especificar instrucciones.
  7. (Opcional) En la parte superior de la página, elija Untitled (Sin título) y asigne un nombre al bloc de notas.

  8. Para iniciar una aplicación de Spark, escriba el comando siguiente en el bloc de notas y, a continuación, elija Run (Ejecutar) en la barra de herramientas.

    spark

    Después de un breve intervalo, debería ver la respuesta siguiente:

    
          La respuesta del sistema muestra el estado de la aplicación de Spark junto con el siguiente mensaje: SparkSession available as 'spark' (SparkSession disponible como “spark”).
  9. Cree un marco dinámico y ejecute una consulta en él: copie, pegue y ejecute el código siguiente, que genera el recuento y el esquema de la tabla persons_json.

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()