Creación de trabajos en AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de trabajos en AWS Glue

Un flujo de trabajo es la lógica de negocio que lleva a cabo el flujo de trabajo de extracción, transformación y carga (ETL) en AWS Glue. Cuando inicia un flujo de trabajo, AWS Glue ejecuta un script que extrae datos de orígenes, los transforma y los carga en los destinos. Puede crear trabajos en la sección ETL de la consola de AWS Glue. Para obtener más información, consulte Trabajo con trabajos en la consola de AWS Glue.

El siguiente diagrama resume el flujo de flujo de trabajo y los pasos básicos para la creación de un flujo de trabajo en AWS Glue:


      Flujo de trabajo que describe cómo crear un flujo de trabajo conAWS Glueen 6 pasos básicos.

Información general sobre el flujo de flujo de trabajo

Al crear un flujo de trabajo, debe proporcionar información sobre los orígenes de datos, los destinos y otra información. El resultado es un script de la API de Apache Spark generada (PySpark). Posteriormente, podrá almacenar la definición de flujo de trabajo en AWS Glue Data Catalog.

A continuación, se describe un proceso completo para la creación de trabajos en la consola de AWS Glue:

  1. El usuario elige un origen de datos para el flujo de trabajo. Las tablas que representan el origen de datos deben haberse definido en Catálogo de datos. Si el origen requiere una conexión, esta también estará referenciada en el flujo de trabajo. Si el trabajo requiere varios orígenes de datos, puede añadirlos más tarde editando el script.

  2. El usuario elige un destino de datos para el flujo de trabajo. Las tablas que representan el destino de datos se pueden definir en el catálogo de datos o bien, el flujo de trabajo puede crear las tablas de destino cuando se ejecute. El usuario elige la ubicación de destino al crear el flujo de trabajo. Si el destino requiere una conexión, esta también estará referenciada en el flujo de trabajo. Si el trabajo requiere varios destinos de datos, puede añadirlos más tarde editando el script.

  3. Puede personalizar el entorno de procesamiento del flujo de trabajo mediante argumentos para el flujo de trabajo y el script que se generó. Para obtener más información, consulte Adición de trabajos en AWS Glue.

  4. Inicialmente, AWS Glue genera un script, pero usted también puede editar este script para añadir orígenes, destinos y transformaciones. Para obtener más información acerca de las transformaciones, consulte Built-In Transforms (Transformaciones integradas).

  5. El usuario especifica como se va a invocar el flujo de trabajo, bien a petición, según una programación basada en tiempo o por evento. Para obtener más información, consulte Inicio de trabajos y rastreadores mediante desencadenadores.

  6. En función de lo que se haya indicado, AWS Glue generará un script PySpark o Scala. Podrá dar personalizar el script según sus necesidades empresariales. Para obtener más información, consulte Edición de scripts en AWS Glue.