Preparación de datos mediante sesiones interactivas AWS Glue - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de datos mediante sesiones interactivas AWS Glue

Las sesiones interactivas de AWS Glue son un servicio sin servidor que puede utilizar para recopilar, transformar, limpiar y preparar datos para almacenarlos en sus lagos de datos y canalizaciones de datos. Las sesiones interactivas de AWS Glue proporcionan un entorno de ejecución de Apache Spark, bajo demanda y sin servidores, que puede inicializar en cuestión de segundos en una unidad de procesamiento de datos (DPU) dedicada sin tener que aprovisionar ni administrar una compleja infraestructura de clústeres de computación. Tras la inicialización, puedes navegar por el catálogo de AWS Glue datos, ejecutar consultas de gran tamaño, acceder a los datos regidos por AWS Lake Formation ellos y analizarlos y prepararlos de forma interactiva con Spark, directamente en tus blocs de notas de Studio o Studio Classic. A continuación, puedes usar los datos preparados para entrenar, ajustar e implementar modelos con las herramientas de aprendizaje automático diseñadas específicamente en SageMaker Studio o Studio Classic. Deberías considerar las sesiones AWS Glue interactivas para tus cargas de trabajo de preparación de datos si deseas un servicio Spark sin servidor con un control moderado de la configurabilidad y la flexibilidad.

Puedes iniciar una sesión AWS Glue interactiva iniciando un JupyterLab bloc de notas en Studio o Studio Classic. Al iniciar su cuaderno, elija el kernel Glue PySpark and Ray o Glue Spark integrado. Al hacerlo, se inicia automáticamente una sesión de Spark interactiva y sin servidor. No es necesario aprovisionar ni administrar ningún clúster o infraestructura de computación. Tras la inicialización, puede explorar los datos e interactuar con ellos desde sus cuadernos de Studio o Studio Classic.

Antes de iniciar la sesión AWS Glue interactiva en Studio o Studio Classic, debe establecer las funciones y políticas adecuadas. Además, es posible que tenga que proporcionar acceso a recursos adicionales, como un bucket de almacenamiento de Amazon S3. Para obtener más información sobre las políticas de IAM requeridas, consulte Permisos para sesiones AWS Glue interactivas en Studio o Studio Classic.

Studio y Studio Classic ofrecen una configuración predeterminada para la sesión AWS Glue interactiva; sin embargo, puedes usar el catálogo completo AWS Glue de comandos mágicos de Jupyter para personalizar aún más tu entorno. Para obtener información sobre las magias de Jupyter predeterminadas y adicionales que puede utilizar en su AWS Glue sesión interactiva, consulte. Configura tu sesión AWS Glue interactiva en Studio o Studio Classic

  • Los usuarios de Studio Classic que inicien una sesión AWS Glue interactiva pueden seleccionar entre las siguientes imágenes y núcleos:

    • Imágenes: SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: Glue Python [PySpark and Ray] y Glue Spark

  • Para los usuarios de Studio, utilice la imagen de SageMaker distribución predeterminada y seleccione un núcleo Glue Python [PySpark and Ray] o un Glue Spark núcleo.