Esquemas y flujos de trabajo en Lake Formation

Un flujo de trabajo encapsula una actividad compleja de extracción, transformación y carga (ETL) de múltiples tareas. Los flujos de trabajo generan AWS Glue rastreadores, tareas y activadores para organizar la carga y actualización de los datos. Lake Formation ejecuta y rastrea un flujo de trabajo como una única entidad. Puede configurar un flujo de trabajo para que se ejecute bajo demanda o de forma programada.

nota

Spark Parquet Writer no admite caracteres especiales en los nombres de las columnas. Se trata de una limitación técnica del propio escritor, no de un problema de configuración.

Los flujos de trabajo que cree en Lake Formation son visibles en la consola de AWS Glue como un gráfico acíclico dirigido (DAG). Cada nodo del DAG es una tarea, un rastreador o un disparador. Para supervisar el progreso y solucionar problemas, puede hacer un seguimiento del estado de cada nodo del flujo de trabajo.

Cuando se completa un flujo de trabajo de Lake Formation, el usuario que lo ejecutó recibe el permiso SELECT de Lake Formation en las tablas del Catálogo de datos que crea el flujo de trabajo.

También puede crear flujos de trabajo en AWS Glue. Sin embargo, como Lake Formation le permite crear un flujo de trabajo a partir de un esquema, la creación de flujos de trabajo es mucho más sencilla y automatizada en Lake Formation. Lake Formation proporciona los siguientes tipos de esquemas:

Instantánea de la base de datos. Carga o recarga los datos de todas las tablas en el lago de datos desde una fuente JDBC. Puede excluir algunos datos de la fuente en función de un patrón de exclusión.
Base de datos incremental. Carga solo los datos nuevos en el lago de datos desde una fuente JDBC, en función de los marcadores establecidos anteriormente. El usuario especifica las tablas individuales de la base de datos de origen de JDBC que desee incluir. Para cada tabla, elige las columnas de marcadores y el orden de clasificación de los marcadores para hacer un seguimiento de los datos que se han cargado previamente. La primera vez que ejecuta un esquema incremental de base de datos sobre un conjunto de tablas, el flujo de trabajo carga todos los datos de las tablas y establece los marcadores para la siguiente ejecución del esquema incremental de base de datos. Por lo tanto, puede utilizar un esquema de base de datos incremental en lugar del esquema de instantánea de base de datos para cargar todos los datos, siempre que especifique cada tabla de los orígenes de datos como parámetro.
Archivo de registro: carga datos de forma masiva desde fuentes de archivos de registro AWS CloudTrail, incluidos los registros de Elastic Load Balancing y los registros de Application Load Balancer.

Utilice la siguiente tabla como ayuda para decidir si debe utilizar una instantánea de base de datos o un esquema incremental de base de datos.

Utilice la instantánea de la base de datos cuando...	Utilice la base de datos incremental cuando...
La evolución del esquema es flexible. (Se cambia el nombre de las columnas, se eliminan las columnas anteriores y se añaden nuevas columnas en su lugar). Se necesita una coherencia total entre el origen y el destino.	La evolución del esquema es incremental. (Solo hay adición sucesiva de columnas). Solo se añaden nuevas filas; las filas anteriores no se actualizan.

nota

Los usuarios no pueden editar los esquemas y flujos de trabajo creados por Lake Formation.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Importación de datos mediante flujos de trabajo

Creación de un flujo de trabajo