Tutorial: uso de un bloc de notas de SageMaker con su punto de conexión de desarrollo
En AWS Glue, puede crear un punto de enlace de desarrollo y, a continuación, crear un bloc de notas de SageMaker para ayudar a desarrollar sus scripts de machine learning y ETL. Un bloc de notas de SageMaker es una instancia de computación de machine learning completamente administrado que ejecuta la aplicación de bloc de notas de Jupyter.
-
En la consola de AWS Glue, seleccione Puntos de enlace de desarrollo para ir a la lista de puntos de enlace de desarrollo.
-
Seleccione la casilla situada junto al nombre de un punto de enlace de desarrollo que desee utilizar y, en el menú Action (Acción), elija Create SageMaker notebook (Crear bloc de notas de SageMaker).
-
Rellene la página Create and configure a notebook (Crear y configurar un bloc de notas) como se indica a continuación:
-
Escriba un nombre para el bloc de notas.
-
En Attach to development endpoint (Asociar a un punto de enlace de desarrollo), verifique el punto de enlace de desarrollo.
-
Elija crear un rol AWS Identity and Access Management (IAM).
Se recomienda crear un rol. Si utiliza un rol existente, asegúrese de que tiene los permisos necesarios. Para obtener más información, consulte Paso 6: Crear una política de IAM para blocs de notas de SageMaker.
-
(Opcional) Elija una VPC, una subred y uno o varios grupos de seguridad.
-
(Opcional) Elija una clave de cifrado de AWS Key Management Service.
-
(Opcional) Añada etiquetas para la instancia de bloc de notas.
-
-
Elija Crear cuaderno. En la página Notebooks (Blocs de notas), elija el icono de actualización que aparece en la parte superior derecha y continúe hasta que el Status (Estado) aparezca como
Ready
. -
Seleccione la casilla situada junto al nombre del bloc de notas nuevo y, a continuación, elija Open notebook (Abrir bloc de notas).
-
Cree un bloc de notas nuevo: en la página de jupyter, elija New (Nuevo) y, a continuación, seleccione Sparkmagic (PySpark).
La pantalla que aparece debe ser similar a la siguiente:
-
(Opcional) En la parte superior de la página, elija Untitled (Sin título) y asigne un nombre al bloc de notas.
-
Para iniciar una aplicación de Spark, escriba el comando siguiente en el bloc de notas y, a continuación, elija Run (Ejecutar) en la barra de herramientas.
spark
Después de un breve intervalo, debería ver la respuesta siguiente:
-
Cree un marco dinámico y ejecute una consulta en él: copie, pegue y ejecute el código siguiente, que genera el recuento y el esquema de la tabla
persons_json
.import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()