Creación de trabajos de ETL visuales con AWS Glue Studio - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de trabajos de ETL visuales con AWS Glue Studio

Un trabajo de AWS Glue encapsula un script que se conecta a los datos de origen, los procesa y, a continuación, los escribe en el destino de datos. Normalmente, un trabajo ejecuta scripts de extracción, transformación y carga (ETL). Los trabajos pueden ejecutar scripts diseñados para los entornos de tiempo de ejecución de Apache Spark y Ray. Los trabajos también pueden ejecutar scripts de Python de uso general (trabajos de shell de Python). Los desencadenadores de AWS Glue pueden iniciar trabajos en función de un programa o evento, o bajo demanda. Puede monitorear las ejecuciones de trabajos para comprender las métricas de tiempo de ejecución como el estado de realización, la duración y la hora de inicio.

Puede utilizar los scripts que genera AWS Glue o puede utilizar sus propios scripts. Si se cuenta con un esquema de origen y una ubicación o esquema de destino determinados, el generador de código de AWS Glue Studio puede crear automáticamente un script de la API de Apache Spark (PySpark). Puede utilizar este script como base y editarlo para satisfacer sus objetivos.

AWS Glue puede escribir archivos de salida en varios formatos de datos. Cada tipo de trabajo puede admitir diferentes formatos de salida. En algunos formatos de datos, se pueden escribir formatos de compresión comunes.

Inicie sesión en la consola de AWS Glue

Un flujo de trabajo en AWS Glue es la lógica empresarial que lleva a cabo el flujo de trabajo de extracción, transformación y carga (ETL). Puede crear trabajos en la sección ETL de la consola de AWS Glue.

Para ver los trabajos existentes, inicie sesión en la AWS Management Console y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/. Después, seleccione pestaña Jobs (Trabajos) en AWS Glue. En la lista Jobs (Trabajos) se muestra la ubicación del script que se asocia a cada flujo de trabajo, cuando el flujo de trabajo se modificó por última vez, y la opción de marcador de flujo de trabajo actual.

Al crear un nuevo trabajo o después de haberlo guardado, puede utilizar AWS Glue Studio para modificar los trabajos de ETL. Puede hacerlo mediante la edición de los nodos en el editor visual o al editar el script de trabajo en modo desarrollador. También puede agregar y eliminar nodos en el editor visual para crear trabajos de ETL más complejos.

Siguientes pasos para crear un trabajo en AWS Glue Studio

Utilice el editor visual de trabajos para configurar nodos para su trabajo. Cada nodo representa una acción, como leer datos de la ubicación de origen o aplicar una transformación a los datos. Cada nodo que agregue al trabajo tiene propiedades que proporcionan información sobre la ubicación o la transformación de los datos.

Los próximos pasos para crear y administrar sus trabajos son los siguientes: