Operaciones de ETL visuales con AWS Glue Studio - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Operaciones de ETL visuales con AWS Glue Studio

Puede utilizar la interfaz visual simple en AWS Glue Studio para crear los trabajos de ETL. Se utiliza la página Jobs (Trabajos) para crear nuevos trabajos. También puede utilizar un editor de script o bloc de notas para trabajar en forma directa con el código en el script del trabajo de ETL de AWS Glue Studio.

En la página Jobs (Trabajos), puede ver todos los trabajos que ha creado con AWS Glue Studio o AWS Glue. Puede ver, administrar y ejecutar sus trabajos en esta página.

Consulte también el tutorial del blog para ver otro ejemplo de cómo crear trabajos de ETL con AWS Glue Studio.

Empezar trabajos en AWS Glue Studio

AWS Glue permite crear un trabajo a través de una interfaz visual, un cuaderno de códigos interactivo o con un editor de guiones. Puede iniciar un trabajo al hacer clic en cualquiera de las opciones o crear uno nuevo a partir de un trabajo de muestra.

Los trabajos de muestra crean un trabajo con la herramienta que usted elija. Por ejemplo, los trabajos de muestra permiten crear un trabajo ETL visual que combine archivos CSV en una tabla de catálogos, crear un trabajo en un cuaderno de códigos interactivo con AWS Glue para Ray o AWS Glue para Spark cuando trabaje con pandas o crear un trabajo en un cuaderno de códigos interactivo con SparkSQL.

Creación de un trabajo en AWS Glue Studio desde cero

  1. Inicie sesión en la AWS Glue Studio consola AWS Management Console y ábrala en https://console.aws.amazon.com/gluestudio/.

  2. En el panel de navegación, seleccione Trabajos ETL.

  3. En la sección Crear trabajo, seleccione una opción de configuración para el trabajo.

    La captura de pantalla muestra la página trabajos de AWS Glue Studio. En la sección “Crear trabajo”, se muestran las opciones de creación de trabajo. En la sección “Trabajos de ejemplo”, seleccione una opción y, a continuación, seleccione Crear un trabajo de muestra para iniciar un trabajo de muestra.

    Opciones para crear un trabajo desde cero:

    • Visual ETL: autor en una interfaz visual centrada en el flujo de datos

    • Autor mediante cuaderno de códigos interactivo: cree trabajos de forma interactiva en una interfaz de cuaderno basada en cuadernos de Jupyter

      Cuando selecciona esta opción, debe proporcionar información adicional antes de crear una sesión de creación de un cuaderno. Para conocer más acerca de cómo especificar esta información, consulte Introducción a los cuaderno en AWS Glue Studio.

    • Autor de código con un editor de guiones: para aquellos que estén familiarizados con la programación y la escritura de guiones de ETL, elija esta opción a fin de crear un nuevo trabajo ETL de Spark. Elige el motor (Python shell, Ray, Spark (Python) o Spark (Scala). A continuación, seleccione Comenzar de cero o Cargar guion para cargar un guion existente desde un archivo local. Si elige utilizar el editor de script, no puede usar el editor visual para diseñar o editar el trabajo.

      Un trabajo de Spark se ejecuta en un entorno Apache Spark administrado por AWS Glue. De forma predeterminada, los nuevos scripts están codificados en Python. Para escribir un nuevo script de Scala, consulte Creación y edición de scripts de Scala en AWS Glue Studio.

Creación de un trabajo en AWS Glue Studio a partir de un ejemplo de trabajo

Puede optar por crear un trabajo a partir de un trabajo de muestra. En Trabajos de ejemplo, seleccione un trabajo de ejemplo y, a continuación, seleccione Crear un trabajo de muestra para iniciar un trabajo de muestra. Al crear un trabajo de muestra a partir de una de las opciones, se proporciona una plantilla rápida con la que puede trabajar.

  1. Inicie sesión en la AWS Glue Studio consola AWS Management Console y ábrala en https://console.aws.amazon.com/gluestudio/.

  2. En el panel de navegación, seleccione Trabajos ETL.

  3. Seleccione una opción para crear un trabajo a partir de un trabajo de muestra:

    • Trabajo de ETL visual para unir varios orígenes: lea tres archivos CSV, combine los datos, cambie los tipos de datos y, a continuación, escriba los datos en Amazon S3 y catalóguelos para consultarlos más adelante.

    • Cuaderno Spark con Pandas: explore y visualice datos con el marco popular de Pandas combinado con Spark.

    • Cuaderno Spark con SQL: use SQL para empezar rápidamente con Apache Spark. Acceda a los datos a través del catálogo de datos de AWS Glue y transfórmelos con comandos conocidos.

  4. Seleccione Crear un trabajo de muestra.