Rellenar AWS Glue Data Catalog - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Rellenar AWS Glue Data Catalog

AWS Glue Data Catalog contiene referencias a datos que se usan como orígenes y destinos de sus trabajos de extracción, transformación y carga (ETL) en AWS Glue. Para crear su almacenamiento o lago de datos, debe catalogar estos datos. AWS Glue Data Catalog es un índice para las métricas de tiempo de ejecución, esquema y ubicación de sus datos. Puede usar la información en Data Catalog para crear y monitorear sus trabajos de ETL. La información del Data Catalog se almacena como tablas de metadatos en las que cada tabla especifica un único almacén de datos. Normalmente, debe ejecutar un rastreador para realizar un inventario de los datos en sus almacenes de datos, pero existen otras formas de añadir tablas de metadatos en su Data Catalog. Para obtener más información, consulte Definición de tablas en AWS Glue Data Catalog.

En el siguiente diagrama de flujo de flujo de trabajo se muestra cómo los rastreadores de AWS Glue interactúan con almacenes de datos y otros elementos para rellenar Data Catalog.


      El flujo de trabajo que muestra cómo el rastreador de AWS Glue rellena Data Catalog en 5 pasos básicos.

Este es el flujo de flujo de trabajo general de rellenado de por parte de un rastreador:AWS Glue Data Catalog:

  1. El rastreador ejecuta cualquier clasificador personalizado que elija para inferir el formato y el esquema de sus datos. Debe proporcionar el código para clasificadores personalizados, que se ejecutan en el orden especificado.

    El primer clasificador personalizado en reconocer correctamente la estructura de sus datos se usa para crear un esquema. Los clasificadores personalizados que aparecen más abajo en la lista se omiten.

  2. Si no coincide ningún clasificador con el esquema de sus datos, los clasificadores integrados intentarán reconocer el esquema de sus datos. Un ejemplo de un clasificador integrado es uno que reconoce JSON.

  3. El rastreador se conecta al almacén de datos. Algunos almacenes de datos requieren propiedades de conexión para el acceso del rastreador.

  4. El esquema inferido se crea para sus datos.

  5. El rastreador escribe los metadatos en Data Catalog. Una definición de tabla contiene metadatos acerca de los datos de su almacén de datos. La tabla se escribe en una base de datos, que es un contenedor de tablas en Data Catalog. Entre los atributos de una tabla se incluye la clasificación, que es una etiqueta creada por el clasificador que determinó el esquema de tabla.