Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
¿Qué almacenes de datos puedo rastrear?
Los rastreadores pueden rastrear los siguientes almacenes de datos basados en archivos y almacenes de datos basados en tablas.
Tipo de acceso que utiliza el rastreador | Almacenes de datos |
---|---|
Cliente nativo |
|
JDBC |
Amazon Redshift Snowflake Dentro de Amazon Relational Database Service (Amazon RDS) o externo a Amazon RDS:
|
Cliente de MongoDB |
|
nota
Actualmente, AWS Glue no admite rastreadores para transmisiones de datos.
Para los almacenes de datos JDBC, MongoDB, MongoDB Atlas y Amazon DocumentDB (con compatibilidad con MongoDB), debe especificar una conexión de AWS Glue que el rastreador pueda usar para conectarse al almacén de datos. Para Amazon S3, puede especificar opcionalmente una conexión de tipo Red. Una conexión es un objeto del Catálogo de datos que almacena información de conexión, como credenciales, URL, información de Amazon Virtual Private Cloud, etc. Para obtener más información, consulte Definición de conexiones en AWS Glue Data Catalog.
A continuación, se muestran notas sobre los distintos almacenes de datos.
- Simple Storage Service (Amazon S3)
-
Puede elegir rastrear una ruta en su cuenta o en otra cuenta. Si todos los archivos de Amazon S3 de una carpeta tienen el mismo esquema, el rastreador crea una tabla. Además, si el objeto de Amazon S3 está particionado, solo se crea una tabla de metadatos y se agrega información de particiones al Catálogo de datos de esa tabla.
- Amazon S3 y Amazon DynamoDB
-
Los rastreadores utilizan un rol de AWS Identity and Access Management (IAM) para obtener permiso y acceder a sus almacenes de datos. El rol que se transfiere al rastreador debe tener permiso para obtener acceso a las rutas de Amazon S3 y a las tablas de Amazon DynamoDB que se rastrean.
- Amazon DynamoDB
-
Al definir un rastreador mediante la consola de AWS Glue, especifica una tabla de DynamoDB. Si usa la API de AWS Glue, especifica una lista de tablas. Puede elegir rastrear sólo una pequeña muestra de los datos para reducir los tiempos de ejecución del rastreador.
- Delta Lake
-
En cada almacén de datos de Delta Lake, debe especificar cómo crear tablas de Delta:
Crear tablas nativas: se permite la integración a los motores de consulta que permiten consultar el registro de transacciones de Delta directamente. Para obtener más información, consulte Consultar las tablas de Delta Lake.
Crear tablas de enlaces simbólicos: se crea una carpeta de
_symlink_manifest
con los archivos de manifiesto particionados mediante las claves de partición en función de los parámetros de configuración especificados.
- MongoDB y Amazon DocumentDB (compatible con MongoDB)
-
Las versiones 3.2 y posteriores de MongoDB son compatibles. Puede elegir rastrear sólo una pequeña muestra de los datos para reducir los tiempos de ejecución del rastreador.
- Base de datos relacional
-
La autenticación se realiza con un nombre de usuario y una contraseña de base de datos. En función del tipo de motor de base de datos, puede elegir qué objetos se rastrean, como bases de datos, esquemas y tablas.
- Snowflake
-
El rastreador de JDBC de Snowflake permite rastrear la tabla, la tabla externa, la vista y la vista materializada. La definición de vista materializada no se rellenará.
En el caso de las tablas externas de Snowflake, el rastreador solo llevará a cabo el rastreo si apunta a una ubicación de Amazon S3. Además del esquema de la tabla, el rastreador también rastreará la ubicación de Amazon S3, el formato de archivo y la salida como parámetros de tabla en la tabla del Catálogo de datos. Tenga en cuenta que la información de particiones de la tabla externa particionada no se rellena.
Actualmente, el proceso de ETL no es compatible con las tablas del Catálogo de datos creadas con el rastreador de Snowflake.