Configuración de nodos de destino de datos - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de nodos de destino de datos

El destino de datos es donde el trabajo escribe los datos transformados.

Información general de las opciones de destino de datos

Su destino de datos (también denominado receptor de datos) puede ser uno de los siguientes:

  • S3: el trabajo escribe los datos en un archivo en la ubicación de Amazon S3 que elija y en el formato que especifique.

    Si configura columnas de partición para el destino de datos, el trabajo escribe el conjunto de datos en Amazon S3 en directorios en función de la clave de partición.

  • AWS Glue Data Catalog: el trabajo utiliza la información asociada a la tabla del Catálogo de datos para escribir los datos de salida en una ubicación de destino.

    Puede crear la tabla en forma manual o con el rastreador. También puede utilizar plantillas de AWS CloudFormation para crear tablas en el Catálogo de datos.

  • Conector: un conector es un fragmento de código que facilita la comunicación entre el almacén de datos y AWS Glue. El trabajo utiliza el conector y la conexión asociada para escribir los datos de salida en una ubicación de destino. Puede suscribirse a un conector ofrecido en AWS Marketplace o puede crear su propio conector personalizado. Para obtener más información, consulte Agregar conectores a AWS Glue Studio.

Puede elegir actualizar el Catálogo de datos cuando su trabajo escriba en un destino de datos de Amazon S3. En lugar de requerir que un rastreador actualice el Catálogo de datos cuando cambian el esquema o las particiones, esta opción facilita la actualización de las tablas. Esta opción simplifica el proceso de hacer que los datos estén disponibles para análisis mediante el agregado opcional de nuevas tablas al Catálogo de datos, la actualización de particiones de tabla y del esquema de las tablas directamente desde el trabajo.

Edición del nodo de destino de datos

El destino de datos es donde el trabajo escribe los datos transformados.

Para agregar o configurar un nodo de destino de datos en el diagrama de trabajo
  1. (Opcional) si necesita agregar un nodo de destino, elija Target (Destino) en la barra de herramientas situada en la parte superior del editor visual y elija S3 o Glue Data Catalog (Catálogo de datos de Glue).

    • Si elige S3 para el destino, el trabajo escribe el conjunto de datos en uno o más archivos en la ubicación de Amazon S3 que especifique.

    • Si elige AWS Glue Data Catalog para el destino, el trabajo escribe en una ubicación descrita por la tabla seleccionada en el Catálogo de datos.

  2. Elija un nodo de destino de datos en el diagrama de trabajo. Al elegir un nodo, aparece el panel de detalles del nodo en el lado derecho de la página.

  3. Elija la pestaña Node properties (Propiedades del nodo) y, a continuación, escriba la información siguiente:

    • Name (Nombre): ingrese un nombre para asociar al nodo en el diagrama de trabajo.

    • Node type (Tipo de nodo): ya se debe haber seleccionado un valor, pero podrá modificarlo según sea necesario.

    • Node parents (Nodo principales): el nodo principal es el nodo del diagrama de trabajo que proporciona los datos de salida que desea escribir en la ubicación de destino. Para un diagrama de trabajo previamente completado, el nodo de destino ya debe tener seleccionado el nodo principal. Si no se muestra ningún nodo principal, elija un nodo principal de la lista.

      Un nodo de destino tiene un nodo principal único.

  4. Configure la información de Data source properties (Propiedades de origen de datos). Para obtener más información, consulte las siguientes secciones:

  5. (Opcional) después de configurar las propiedades del nodo de destino de datos, puede ver el esquema de salida para sus datos al seleccionar la pestaña Output schema (Esquema de salida) en el panel de detalles del nodo. La primera vez que elija esta pestaña para cualquier nodo de trabajo, se le pedirá que proporcione un rol de IAM para acceder a los datos. Si no ha especificado un rol de IAM en Job details (Detalles del trabajo), se le pedirá que ingrese un rol de IAM aquí.

Uso de Amazon S3 para el destino de datos

En todos los orígenes de datos, excepto Amazon S3 y los conectores, debe existir una tabla en el AWS Glue Data Catalog para el tipo de fuente que elija. AWS Glue Studio no crea la tabla del Catálogo de datos.

Para configurar un nodo de destino de datos que escriba en Amazon S3
  1. Vaya al editor visual para acceder a un trabajo nuevo o guardado.

  2. Elija un nodo de origen de datos en el diagrama de trabajo.

  3. Elija la pestaña Data source properties (Propiedades de origen de datos) y, a continuación, escriba la información siguiente:

    • Format (Formato): elija un formato de la lista. Los tipos de formato disponibles para los resultados de datos son:

      • JSON: notación de objetos JavaScript.

      • CSV: valores separados por comas.

      • Avro: Apache Avro JSON binario.

      • Parquet: almacenamiento en columna de Apache Parquet.

      • Glue Parquet: un tipo personalizado de escritor de Parquet, optimizado para DynamicFrames como el formato de datos. En lugar de requerir un esquema precalculado para los datos, calcula y modifica el esquema dinámicamente.

      • ORC: formato Apache Optimized Row Columnar (ORC).

      Para obtener más información sobre estas opciones de formato, consulte Opciones de formato para las entradas y salidas de ETL en AWS Glue en la Guía para desarrolladores de AWS Glue.

    • Compression Type (Tipo de compresión): puede optar por comprimir los datos de manera opcional mediante el formato gzip o bzip2. El valor predeterminado es no compresión, o None (Ninguno).

    • S3 Target Location (Ubicación de destino de S3): el bucket y la ubicación de Amazon S3 para la salida de datos. Puede elegir la opción Browse S3 (Examinar S3) para ver los depósitos de Amazon S3 a los que tiene acceso y elegir uno como destino.

    • Opciones de actualización del Catálogo de datos

      • Do not update the Data Catalog (No actualizar el Catálogo de datos): (predeterminado) seleccione esta opción si no desea que el trabajo actualice el Catálogo de datos, incluso si el esquema cambia o se agregan nuevas particiones.

      • Create a table in the Data Catalog and on subsequent runs, update the schema and add new partitions (Crear una tabla en el Catálogo de datos y en ejecuciones posteriores, actualizar el esquema y agregar nuevas particiones): si elige esta opción, el trabajo crea la tabla en el Catálogo de datos durante la primera ejecución del trabajo. En las ejecuciones de trabajos posteriores, el trabajo actualiza la tabla del Catálogo de datos si cambia el esquema o se agregan nuevas particiones.

        También debe seleccionar una base de datos en el Catálogo de datos e introducir un nombre de tabla.

      • Create a table in the Data Catalog and on subsequent runs, keep existing schema and add new partitions (Crear una tabla en el Catálogo de datos y en ejecuciones posteriores, mantener el esquema existente y agregar nuevas particiones): si elige esta opción, el trabajo crea la tabla en el Catálogo de datos durante la primera ejecución del trabajo. En las ejecuciones de trabajos posteriores, el trabajo actualiza la tabla del Catálogo de datos solo para agregar nuevas particiones.

        También debe seleccionar una base de datos en el Catálogo de datos e introducir un nombre de tabla.

      • Partition keys (Claves de partición): elija qué columnas utilizar como claves de partición en la salida. Para agregar más claves de partición, elija Add a partition key (Agregar una clave de partición).

Uso de tablas del Catálogo de datos para el destino de datos

En todos los orígenes de datos, excepto Amazon S3 y los conectores, debe existir una tabla en el AWS Glue Data Catalog para el tipo de destino que elija. AWS Glue Studio no crea la tabla del Catálogo de datos.

Para configurar las propiedades de datos de un destino que utiliza una tabla del Catálogo de datos
  1. Vaya al editor visual para acceder a un trabajo nuevo o guardado.

  2. Elija un nodo de destino de datos en el diagrama de trabajo.

  3. Elija la pestaña Data target properties (Propiedades de destino de datos) y, a continuación, escriba la información siguiente:

    • Database (Base de datos): elija la base de datos que contiene la tabla que desea utilizar como destino a partir de la lista. Esta base de datos ya debe existir en el Catálogo de datos.

    • Table (Tabla): elija la tabla que define el esquema de los datos de salida a partir de la lista. Esta tabla ya debe existir en el Catálogo de datos.

      Una tabla del Catálogo de datos está formada por los nombres de las columnas, las definiciones de tipos de datos, la información de partición y otros metadatos acerca de un conjunto de datos de destino. Su trabajo escribe a una ubicación descrita en esta tabla en el Catálogo de datos.

      Para obtener más información acerca de cómo crear tablas en el Catálogo de datos, consulte Definición de tablas en el Catálogo de datos en la Guía para desarrolladores de AWS Glue.

    • Opciones de actualización del Catálogo de datos

      • Do not change table definition (No cambiar la definición de la tabla): (predeterminado) seleccione esta opción si no desea que el trabajo actualice el Catálogo de datos, incluso si el esquema cambia o se agregan nuevas particiones.

      • Update schema and add new partitions (Actualizar esquema y agregar nuevas particiones): si elige esta opción, el trabajo actualiza la tabla del Catálogo de datos si cambia el esquema o se agregan nuevas particiones.

      • Keep existing schema and add new partitions (Mantener el esquema existente y agregar nuevas particiones): si elige esta opción, el trabajo actualiza la tabla del Catálogo de datos solo para agregar nuevas particiones.

      • Partition keys (Claves de partición): elija qué columnas utilizar como claves de partición en la salida. Para agregar más claves de partición, elija Add a partition key (Agregar una clave de partición).

Uso de un conector para el destino de datos

Si selecciona un conector para el Node type (Tipo de nodo), siga las instrucciones en Creación de trabajos con conectores personalizados para finalizar la configuración de las propiedades del destino de datos.