Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Rellenar AWS Glue Data Catalog
AWS Glue Data Catalog contiene referencias a datos que se usan como orígenes y destinos de sus trabajos de extracción, transformación y carga (ETL) en AWS Glue. Para crear su almacenamiento o lago de datos, debe catalogar estos datos. AWS Glue Data Catalog es un índice para las métricas de tiempo de ejecución, esquema y ubicación de sus datos. Puede usar la información en Data Catalog para crear y monitorear sus trabajos de ETL. La información del Data Catalog se almacena como tablas de metadatos en las que cada tabla especifica un único almacén de datos. Normalmente, debe ejecutar un rastreador para realizar un inventario de los datos en sus almacenes de datos, pero existen otras formas de añadir tablas de metadatos en su Data Catalog. Para obtener más información, consulte Definición de tablas en AWS Glue Data Catalog.
En el siguiente diagrama de flujo de flujo de trabajo se muestra cómo los rastreadores de AWS Glue interactúan con almacenes de datos y otros elementos para rellenar Data Catalog.

Este es el flujo de flujo de trabajo general de rellenado de por parte de un rastreador:AWS Glue Data Catalog:
-
El rastreador ejecuta cualquier clasificador personalizado que elija para inferir el formato y el esquema de sus datos. Debe proporcionar el código para clasificadores personalizados, que se ejecutan en el orden especificado.
El primer clasificador personalizado en reconocer correctamente la estructura de sus datos se usa para crear un esquema. Los clasificadores personalizados que aparecen más abajo en la lista se omiten.
-
Si no coincide ningún clasificador con el esquema de sus datos, los clasificadores integrados intentarán reconocer el esquema de sus datos. Un ejemplo de un clasificador integrado es uno que reconoce JSON.
-
El rastreador se conecta al almacén de datos. Algunos almacenes de datos requieren propiedades de conexión para el acceso del rastreador.
-
El esquema inferido se crea para sus datos.
-
El rastreador escribe los metadatos en Data Catalog. Una definición de tabla contiene metadatos acerca de los datos de su almacén de datos. La tabla se escribe en una base de datos, que es un contenedor de tablas en Data Catalog. Entre los atributos de una tabla se incluye la clasificación, que es una etiqueta creada por el clasificador que determinó el esquema de tabla.
Temas
- Definición de una base de datos en su catálogo de datos
- Definición de tablas en AWS Glue Data Catalog
- Definición de conexiones al AWS Glue de Data Catalog
- Definición de rastreadores
- Adición de clasificadores a un rastreador
- Trabajo con la configuración del catálogo de datos en la consola de AWS Glue
- Creación de tablas, actualización del esquema e incorporación de nuevas particiones en Data Catalog desde trabajos ETL de AWS Glue
- Relleno del catálogo de datos mediante plantillas de AWS CloudFormation