Plans et flux de travail dans Lake Formation

Un flux de travail encapsule une activité complexe d'extraction, de transformation et de chargement (ETL) multi-tâches. Les flux de travail génèrent des AWS Glue robots, des tâches et des déclencheurs pour orchestrer le chargement et la mise à jour des données. Lake Formation exécute et suit un flux de travail en tant qu'entité unique. Vous pouvez configurer un flux de travail pour qu'il s'exécute à la demande ou selon un calendrier.

Note

Spark Parquet Writer ne prend pas en charge les caractères spéciaux dans les noms de colonnes. Il s'agit d'une limitation technique du rédacteur lui-même, et non d'un problème de configuration.

Les flux de travail que vous créez dans Lake Formation sont visibles dans la AWS Glue console sous la forme d'un graphe acyclique dirigé (DAG). Chaque nœud DAG est une tâche, un robot d'exploration ou un déclencheur. Pour suivre les progrès et résoudre les problèmes, vous pouvez suivre l'état de chaque nœud du flux de travail.

Lorsqu'un flux de travail Lake Formation est terminé, l'utilisateur qui l'a exécuté reçoit l'SELECTautorisation Lake Formation sur les tables du catalogue de données créées par le flux de travail.

Vous pouvez également créer des flux de travail dansAWS Glue. Cependant, dans la mesure où Lake Formation vous permet de créer un flux de travail à partir d'un plan, la création de flux de travail est beaucoup plus simple et automatisée dans Lake Formation. Lake Formation fournit les types de plans suivants :

Instantané de base de données : charge ou recharge les données de toutes les tables dans le lac de données à partir d'une source JDBC. Vous pouvez exclure certaines données de la source selon un modèle d'exclusion.
Base de données incrémentielle : charge uniquement les nouvelles données dans le lac de données à partir d'une source JDBC, en fonction des signets définis précédemment. Vous spécifiez les tables individuelles à inclure dans la base de données source JDBC. Pour chaque tableau, vous choisissez les colonnes des signets et l'ordre de tri des favoris afin de suivre les données précédemment chargées. La première fois que vous exécutez un plan de base de données incrémentiel sur un ensemble de tables, le flux de travail charge toutes les données des tables et définit des signets pour la prochaine exécution du plan de base de données incrémentiel. Vous pouvez donc utiliser un plan de base de données incrémentiel au lieu du plan de capture de base de données pour charger toutes les données, à condition de spécifier chaque table de la source de données en tant que paramètre.
Fichier journal : charge en bloc des données à partir de sources de fichiers journaux AWS CloudTrail, notamment les journaux Elastic Load Balancing et les journaux Application Load Balancer.

Utilisez le tableau suivant pour déterminer s'il convient d'utiliser un instantané de base de données ou un plan de base de données incrémentiel.

Utilisez un instantané de base de données lorsque...	Utiliser une base de données incrémentielle lorsque...
L'évolution du schéma est flexible. (Les colonnes sont renommées, les colonnes précédentes sont supprimées et de nouvelles colonnes sont ajoutées à leur place.) Une cohérence complète est nécessaire entre la source et la destination.	L'évolution du schéma est progressive. (Il n'y a que des ajouts successifs de colonnes.) Seules les nouvelles lignes sont ajoutées ; les lignes précédentes ne sont pas mises à jour.

Note

Les utilisateurs ne peuvent pas modifier les plans et les flux de travail créés par Lake Formation.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Importation de données à l'aide de workflows

Création d'un flux de travail