Création et développement d'un flux de travail manuellement dans AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création et développement d'un flux de travail manuellement dans AWS Glue

Vous pouvez utiliser la console AWS Glue pour créer et développer manuellement un flux de travail un nœud à la fois.

Un flux de travail contient des tâches, des crawlers et des déclencheurs. Avant de créer un flux de travail manuellement, créez les tâches et les crawlers que le flux de travail doit inclure. Dans le cas des flux de travail, il est préférable de spécifier des crawlers à la demande. Vous pouvez créer de nouveaux déclencheurs lors du développement de de votre flux de travail ou vous pouvez cloner des déclencheurs existants dans le flux de travail. Lorsque vous clonez un déclencheur, tous les objets du catalogue associés au déclencheur (les tâches ou les crawlers qui le déclenchent et les tâches ou les crawlers qu'il démarre) sont ajoutés au flux de travail.

Important

Limitez le nombre total de tâches, de crawlers et de déclencheurs au sein d'un flux de travail à 100 ou moins. Si vous en incluez plus de 100, vous risquez de rencontrer des erreurs lorsque vous tentez de reprendre ou d'arrêter les exécutions du flux de travail.

Vous développez votre flux de travail en ajoutant des déclencheurs au graphique du flux de travail et en définissant les événements et les actions observés pour chaque déclencheur. Vous commencez par un déclencheur de début, qui peut être un déclencheur à la demande ou un déclencheur de planification, et complétez le graphique en ajoutant des déclencheurs d'événements (conditionnels).

Étape 1 : Créer le flux de travail

  1. Connectez-vous à la AWS Management Console et ouvrez la console AWS Glue à l'adresse https://console.aws.amazon.com/glue/.

  2. Dans le panneau de navigation, sous ETL, sélectionnez Workflows (Flux de travail).

  3. Sélectionnez Add workflow (Ajouter un flux de travail) et remplissez le formulaire Add a new ETL workflow (Ajouter un nouveau flux de travail ETL).

    Toutes les propriétés d'exécution par défaut facultatives que vous ajoutez sont rendues disponibles en tant qu'arguments à toutes les tâches du flux de travail. Pour de plus amples informations, veuillez consulter Obtention et définition des propriétés d'exécution du flux de travail dans AWS Glue.

  4. Sélectionnez Add workflow (Ajouter un flux de travail).

    Le nouveau flux de travail s'affiche dans la liste sur la page Workflows (Flux de travail).

Étape 2 : Ajouter un déclencheur de début

  1. Sur la page Workflows (Flux de travail), sélectionnez votre nouveau flux de travail. Ensuite, en bas de la page, assurez-vous que l'onglet Graph (Graphique) est sélectionné.

  2. Choisissez Add trigger (Ajouter un déclencheur), puis, dans la boîte dedialogue Add trigger (Ajouter un déclencheur), effectuez l'une des actions suivantes :

    • Choisissez Clone existing (Clone existant), puis choisissez un déclencheur à cloner. Choisissez ensuite Ajouter.

      Le déclencheur s'affiche sur le graphique, ainsi que les tâches et les crawlers qu'il surveille, et les tâches et les crawlers qu'il démarre.

      Si vous avez sélectionné par erreur le mauvais déclencheur, sélectionnez le déclencheur sur le graphique, puis choisissez Remove (Supprimer).

    • Choisissez Add new (Ajouter un nouveau) et complétez le formulaire Add trigger (Ajouter un déclencheur).

      1. Pour Trigger type (Type de déclencheur), sélectionnez Schedule (Planification), On demand (À la demande) ou EventBridge event (Événement EventBridge).

        Pour le type de déclencheur Schedule (Planification), sélectionnez l'une des options Frequency (Fréquence). Sélectionnez Custom (Personnalisée) pour saisir une expression cron.

        Pour le type de déclencheur EventBridge event (Événement EventBridge), saisissez Number of events (Nombre d'événements) (taille de lot), puis saisissez éventuellement Time delay (Délai)(fenêtre de lot). Si vous omettez Time delay (Délai), la fenêtre de lot est définie par défaut sur 15 minutes. Pour de plus amples informations, veuillez consulter Présentation des flux de travail dans AWS Glue.

      2. Choisissez Add (Ajouter).

      Le déclencheur s'affiche sur le graphique, ainsi qu'un nœud d'espace réservé (nommé Add node (Ajouter un nœud)). Dans l'exemple ci-dessous, le déclencheur de démarrage est un déclencheur de planification nommé Month-close1.

      À ce stade, le déclencheur n'est pas encore enregistré.

      Un graphique avec deux nœuds rectangulaires : un déclencheur et un nœud d'espace réservé. Une flèche pointe du nœud du déclencheur vers le nœud de l'espace réservé.
  3. Si vous avez ajouté un nouveau déclencheur, procédez comme suit :

    1. Effectuez l'une des actions suivantes :

      • Choisissez le nœud d'espace réservé (Add node (Ajouter un nœud)).

      • Assurez-vous que le déclencheur de début est sélectionné, et sur le menu Action au-dessus du graphique, choisissez Add jobs/crawlers to trigger (Ajouter des tâches/crawlers au déclencheur).

    2. Dans la boîte de dialogue Add jobs(s) and crawler(s) to trigger (Ajouter des tâches et des crawlers au déclencheur), sélectionnez une ou plusieurs tâches ou crawlers, puis sélectionnez Add (Ajouter).

      Le déclencheur est enregistré, et les tâches ou crawlers sélectionnés apparaissent sur le graphique avec les connecteurs du déclencheur.

      Si vous avez ajouté par erreur les mauvaises tâches ou les mauvais crawlers, vous pouvez sélectionner le déclencheur ou un connecteur et choisir Remove (Supprimer).

Étape 3 : Ajouter d'autres déclencheurs

Continuez de développer votre flux de travail en ajoutant d'autres déclencheurs de type Event (Événement). Pour faire un zoom avant ou arrière ou pour agrandir le canevas du graphique, utilisez les icônes à la droite du graphique. Pour chaque déclencheur à ajouter, effectuez les opérations suivantes :

Note

Il n'existe aucune action pour enregistrer le flux de travail. Après avoir ajouté votre dernier déclencheur et affecté des actions au déclencheur, le flux de travail est terminé et enregistré. Vous pouvez toujours revenir plus tard et ajouter plus de nœuds.

  1. Effectuez l'une des actions suivantes :

    • Pour cloner un déclencheur existant, assurez-vous qu'aucun nœud sur le graphique ne soit sélectionné, et sur le menu Action, choisissez Add trigger (Ajouter un déclencheur).

    • Pour ajouter un nouveau déclencheur qui surveille une tâche particulière ou un crawler particulier sur le graphique, sélectionnez le nœud de la tâche ou de l'crawler, puis choisissez le nœud d'espace réservé Add trigger (Ajouter un déclencheur).

      Vous pouvez ajouter d'autres tâches ou crawlers à surveiller pour ce déclencheur dans une étape ultérieure.

  2. Dans la boîte de dialogue Add trigger (Ajouter un déclencheur), exécutez l'une des actions suivantes :

    • Choisissez Add new (Ajouter un nouveau) et complétez le formulaire Add trigger (Ajouter un déclencheur). Choisissez ensuite Ajouter.

      Le déclencheur s'affiche sur le graphique. Vous complèterez le déclencheur lors d'une étape ultérieure.

    • Choisissez Clone existing (Clone existant), puis choisissez un déclencheur à cloner. Choisissez ensuite Ajouter.

      Le déclencheur s'affiche sur le graphique, ainsi que les tâches et les crawlers qu'il surveille, et les tâches et les crawlers qu'il démarre.

      Si vous avez choisi par erreur le mauvais déclencheur, sélectionnez le déclencheur sur le graphique, puis choisissez Remove (Supprimer).

  3. Si vous avez ajouté un nouveau déclencheur, procédez comme suit :

    1. Sélectionnez le nouveau déclencheur.

      Comme l'illustre le graphique suivant, le déclencheur De-dupe/fix succeeded est sélectionné et les nœuds d'espace réservé apparaissent pour (1) les événements à surveiller et pour (2) les actions.

      Un graphique avec plusieurs nœuds, dont deux sont des nœuds d'espace réservé qui sont indiqués en tant que nombres 1 et 2.
    2. (Facultatif si le déclencheur surveille déjà un événement et que vous souhaitez ajouter davantage de tâches ou d'crawlers à surveiller.) Choisissez le nœud d'espace réservé des événements à surveiller et dans la boîte de dialogue Add job(s) and crawler(s) to watch (Ajouter des tâches et des crawlers à surveiller), sélectionnez une ou plusieurs tâches ou un ou plusieurs crawlers. Choisissez un événement à surveiller (SUCCEEDED, FAILED, etc.), puis choisissez Add (Ajouter).

    3. Assurez-vous que le déclencheur est sélectionné, puis choisissez le nœud d'espace réservé des actions.

    4. Dans la boîte de dialogue Add job(s) and crawler(s) to watch (Ajouter des tâches et des crawlers à surveiller) sélectionnez une ou plusieurs tâches ou un ou plusieurs crawlers, et choisissez Add (Ajouter).

      Les tâches et les crawlers sélectionnés apparaissent sur le graphique, avec les connecteurs du déclencheur.

Pour en savoir plus sur les flux de travail et les plans, consultez les rubriques suivantes.