Fonctionnalités de l'éditeur de tâche - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Fonctionnalités de l'éditeur de tâche

L'éditeur de tâches fournit les fonctionnalités suivantes pour la création et la modification des tâches.

  • Un diagramme visuel de votre tâche, avec un nœud pour chaque tâche : nœuds de source de données pour la lecture des données ; nœuds de transformation pour la modification des données ; nœuds de données cibles pour l'écriture des données.

    Vous pouvez afficher et configurer les propriétés de chaque nœud dans le diagramme de tâches. Vous pouvez également afficher le schéma et les échantillons de données pour chaque nœud dans le diagramme de tâche. Ces fonctionnalités vous aident à vérifier que votre tâche modifie et transforme les données de la bonne manière, sans avoir à exécuter la tâche.

  • Un onglet d'affichage et d'édition de script, dans lequel vous pouvez modifier le code généré pour votre tâche.

  • Un onglet Détails de la tâche, dans lequel vous pouvez configurer une variété de paramètres pour personnaliser l'environnement dans lequel votre tâche ETL AWS Glue s'exécute.

  • Un onglet Exécutions, dans lequel vous pouvez afficher les exécutions actuelles et précédentes de la tâche, afficher l'état de l'exécution de celle-ci et accéder à ses journaux d'exécution.

  • Un onglet Qualité des données, dans lequel vous pouvez appliquer des règles de qualité des données à votre tâche.

  • Un onglet Planifications, dans lequel vous pouvez configurer l'heure de début de votre tâche ou configurer une exécution de tâche récurrente.

  • Un onglet Contrôle de version, dans lequel vous pouvez configurer un service Git à utiliser avec votre tâche.

Utilisation des prévisualisations de schéma dans l'éditeur de tâches visuel

Lorsque vous créez ou modifiez votre tâche, vous pouvez utiliser l'onglet Output Schema (Schéma de sortie) pour afficher le schéma de vos données.

Avant de voir le schéma, l'éditeur de tâche a besoin d'autorisations pour accéder à la source de données. Vous pouvez spécifier un rôle IAM dans l'onglet Détails de la tâche de l'éditeur ou dans l'onglet Output Schema (Schéma de sortie) pour chaque nœud. Si le rôle IAM dispose de toutes les autorisations nécessaires pour accéder à la source de données, vous pouvez alors afficher le schéma dans l'onglet Schema pour chaque nœud.

Utilisation des prévisualisations de données dans l'éditeur de tâches visuel

Les prévisualisations des données vous aident à créer et à tester votre tâche à l'aide d'un échantillon de vos données, sans avoir à exécuter la tâche de manière répétée. En utilisant la prévisualisation des données, vous pouvez :

  • Tester un rôle IAM pour vous assurer que vous avez accès à vos sources de données ou cibles de données.

  • Vérifier que la transformation modifie les données de la manière prévue. Par exemple, si vous utilisez une transformation de filtre, vous pouvez vous assurer que le filtre sélectionne le sous-ensemble de données approprié.

  • Vérifiez vos données. Si votre jeu de données contient des colonnes avec des valeurs de plusieurs types, l'aperçu des données affiche une liste de tuples pour ces colonnes. Chaque tuple contient le type de données et sa valeur.

Lors de la création ou de la modification de votre tâche, vous pouvez utiliser l'onglet Prévisualisation des données sous le canevas de la tâche pour afficher un échantillon de vos données. Une nouvelle session de prévisualisation des données démarre automatiquement lorsque le rôle est déjà configuré dans la tâche ou qu'un rôle IAM par défaut a été configuré dans le compte. Si aucun rôle n'a été configuré auparavant, vous pouvez démarrer une session en sélectionnant le rôle.

La capture d'écran affiche l'onglet Prévisualisation des données d'un nœud.
Note

Le rôle que vous choisissez pour la session de prévisualisation des données sera également utilisé pour la tâche.

Vous pouvez voir l'état et la progression de votre session ainsi que les détails de la session en cliquant sur l'icône d'information.

Lorsque la session est prête, AWS Glue Studio charge les données pour le nœud que vous avez sélectionné. Vous pouvez voir le % d'avancement au fur et à mesure de sa progression.

La capture d'écran affiche l'onglet Prévisualisation des données pour un nœud qui a démarré.

Lorsque vous créez votre tâche visuelle, AWS Glue Studio mettra automatiquement à jour le schéma du nœud sélectionné lorsque vous activez Déduire les schémas de la session sous l'onglet Schéma en sortie.

La capture d'écran affiche l'onglet Prévisualisation des données pour un nœud qui a démarré.

Pour configurer vos préférences pour les prévisualisations des données :

Choisissez l'icône des paramètres (symbole d'engrenage) pour configurer vos préférences pour les prévisualisations des données. Ces paramètres s'appliquent à tous les nœuds dans le diagramme de tâche. Vous pouvez :

  • Choisir d'envelopper le texte d'une ligne à l'autre. Cette option est activée par défaut

  • Modifier le nombre de lignes (200 par défaut)

  • Choisir un rôle IAM ou en créer un si nécessaire

  • Choisir de démarrer automatiquement une nouvelle session lorsque vous créez une tâche. Cela permet d’ouvrir une nouvelle session interactive lors de la création de tâches. Ce paramètre s’applique au niveau du compte. Une fois défini, il s’appliquera à tous les utilisateurs de votre compte lors de la modification d’une tâche.

  • Choisir de déduire automatiquement le schéma. Les schémas en sortie seront automatiquement déduits pour le nœud sélectionné

  • Choisir d'importer automatiquement les bibliothèques AWS Glue. Ceci est utile pour empêcher la prévisualisation des données de redémarrer de nouvelles sessions lors de l'ajout de nouvelles transformations nécessitant un redémarrage de session

La capture d'écran montre les préférences que vous pouvez définir pour la fonctionnalité de prévisualisation des données.

Les fonctionnalités supplémentaires incluent la possibilité de :

  • Choisissez le bouton Previewing x of y fields (Prévisualiser x des y champs) pour sélectionner les colonnes (champs) à afficher. Lorsque vous prévisualisez vos données à l'aide des paramètres par défaut, l'éditeur de tâches affiche les 5 premières colonnes de votre jeu de données. Vous pouvez le modifier pour afficher tout ou aucun (non recommandé).

  • Faire défiler la fenêtre de prévisualisation des données horizontalement et verticalement.

  • Utilisez le bouton d'agrandissement pour étendre l'onglet Prévisualisation des données et le superposer au graphique des tâches afin de mieux visualiser les données et les structures de données. De même, utilisez le bouton de réduction pour réduire l'onglet Prévisualisation des données. Vous pouvez également saisir le panneau de poignée et le faire glisser vers le haut pour développer l'onglet Prévisualisation des données.

    La capture d'écran montre le panneau de prévisualisation des données avec les boutons de réduction et d'agrandissement encadrés, ainsi que le panneau de poignée que vous pouvez utiliser pour étendre le volet de prévisualisation des données verticalement.
  • Cliquez sur Mettre fin à la session pour arrêter la prévisualisation des données. Lorsque vous arrêtez la session, vous pouvez choisir un nouveau rôle IAM et définir des paramètres supplémentaires (tels que les paramètres d'activation ou de désactivation) pour démarrer automatiquement une nouvelle session, déduire un schéma ou importer des bibliothèques AWS Glue, puis redémarrer la session.

Restrictions lors de l'utilisation de prévisualisations de données

Lorsque vous utilisez des prévisualisations de données, il se peut que vous disposiez des restrictions ou limitations suivantes.

  • La première fois que vous choisissez l'onglet Data preview (Prévisualisation des données), vous devez choisir le rôle IAM. Ce rôle doit disposer des autorisations nécessaires pour accéder aux données et aux autres ressources nécessaires à la création des prévisualisations de données.

  • Une fois que vous avez fourni un rôle IAM, il faut un certain temps avant que les données soient disponibles pour l'affichage. Pour les jeux de données avec moins de 1 Go de données, cela peut prendre jusqu'à une minute. Si vous disposez d'un jeu de données volumineux, vous devriez utiliser des partitions pour améliorer le temps de chargement. Le chargement des données directement à partir d'Amazon S3 offre les meilleures performances.

  • Si vous disposez d'un jeu de données très volumineux et qu'il faut plus de 15 minutes pour interroger les données pour la prévisualisation des données, la requête expire. Les aperçus des données ont un délai d’inactivité de 30 minutes. Pour pallier ce problème, réduisez la taille du jeu de données pour utiliser des prévisualisations de données.

  • Par défaut, les 50 premières colonnes s'affichent dans l'onglet Prévisualisation des données. Si les colonnes n'ont pas de valeurs de données, vous recevrez un message indiquant qu'il n'y a pas de données à afficher. Vous pouvez augmenter le nombre de lignes échantillonnées ou sélectionner différentes colonnes pour afficher les valeurs de données.

  • Les prévisualisations de données ne sont actuellement pas prises en charge pour les sources de données en streaming ou pour les sources de données qui utilisent des connecteurs personnalisés.

  • Les erreurs sur un nœud affectent l'ensemble de la tâche. Si un nœud a une erreur avec les prévisualisations de données, l'erreur apparaîtra sur tous les nœuds jusqu'à ce que vous le corrigiez.

  • Si vous modifiez une source de données pour la tâche, il se peut que les nœuds enfants de cette source de données doivent être mis à jour pour correspondre au nouveau schéma. Par exemple, si vous avez un nœud ApplyMapping qui modifie une colonne et que la colonne n'existe pas dans la source de données de remplacement, vous devez mettre à jour le nœud de transformation AppleMapping.

  • Si vous affichez l'onglet Prévisualisation des données pour un nœud de transformation de requête SQL et que la requête SQL utilise un nom de champ incorrect, l'onglet Prévisualisation des données affiche une erreur.

Génération de code de script

Lorsque vous utilisez l'éditeur visuel pour créer une tâche, le code ETL est automatiquement généré pour vous. AWS Glue Studio crée un script de tâche fonctionnel et complet, et l'enregistre dans un emplacement Amazon S3.

Il existe deux formes de code générées par AWS Glue Studio : la version originale, ou classique, et une version plus récente et simplifiée. Par défaut, le nouveau générateur de code est utilisé pour créer le script de tâche. Vous pouvez générer un script de tâche à l'aide du générateur de code classique dans l'onglet Script en sélectionnant le bouton à bascule Generate classic script (Générer un script classique).

Voici quelques-unes des différences de la nouvelle version du code généré :

  • Les blocs de commentaires volumineux ne sont plus ajoutés au script

  • Les structures de sortie du code utilisent le nom du nœud que vous spécifiez dans l'éditeur visuel. Dans le script de classe, les structures de sortie sont simplement nommées DataSource0, DataSource1, Transform0, Transform1, DataSink0, DataSink1, etc.

  • Les commandes longues sont réparties sur plusieurs lignes pour supprimer le besoin de faire défiler la page pour voir l'ensemble de la commande.

Les nouvelles fonctions dans AWS Glue Studio nécessitent la nouvelle version de la génération de code et ne fonctionnent pas avec le script de code classique. Il vous est proposé de mettre à jour ces tâches lorsque vous tentez de les exécuter.