Catálogo de datos y rastreadores en AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Catálogo de datos y rastreadores en AWS Glue

AWS Glue Data Catalog contiene referencias a datos que se usan como orígenes y destinos de sus trabajos de extracción, transformación y carga (ETL) en AWS Glue. Para crear su almacenamiento o lago de datos, debe catalogar estos datos. AWS Glue Data Catalog es un índice para las métricas de tiempo de ejecución, esquema y ubicación de sus datos. Puede usar la información del Catálogo de datos para crear y monitorizar sus trabajos de ETL. La información del Catálogo de datos se almacena como tablas de metadatos en las que cada tabla especifica un único almacén de datos. Normalmente, deberá ejecutar un rastreador para realizar un inventario de los datos incluidos en sus almacenes de datos, pero existen otras formas de añadir tablas de metadatos en el Catálogo de datos. Para obtener más información, consulte Tablas de AWS Glue.

En el siguiente diagrama de flujo de flujo de trabajo se muestra cómo los rastreadores de AWS Glue interactúan con almacenes de datos y otros elementos para rellenar el Catálogo de datos.


      Flujo de trabajo que muestra cómo el rastreador de AWS Glue rellena el Catálogo de datos en 5 pasos básicos.

Este es el flujo de flujo de trabajo general de rellenado de AWS Glue Data Catalog por parte de un rastreador:

  1. Un rastreador ejecuta cualquier clasificador personalizado que elija para inferir el formato y el esquema de sus datos. Debe proporcionar el código para clasificadores personalizados, que se ejecutan en el orden especificado.

    El primer clasificador personalizado en reconocer correctamente la estructura de sus datos se usa para crear un esquema. Los clasificadores personalizados que aparecen más abajo en la lista se omiten.

  2. Si no coincide ningún clasificador con el esquema de sus datos, los clasificadores integrados intentarán reconocer el esquema de sus datos. Un ejemplo de un clasificador integrado es uno que reconoce JSON.

  3. El rastreador se conecta al almacén de datos. Algunos almacenes de datos requieren propiedades de conexión para el acceso del rastreador.

  4. El esquema inferido se crea para sus datos.

  5. El rastreador escribe los metadatos en el Catálogo de datos. Una definición de tabla contiene metadatos acerca de los datos de su almacén de datos. La tabla se escribe en una base de datos, que es un contenedor de tablas en el Catálogo de datos. Entre los atributos de una tabla se incluye la clasificación, que es una etiqueta creada por el clasificador que determinó el esquema de tabla.