Utilisation d'une SQL requête pour transformer des données - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d'une SQL requête pour transformer des données

Vous pouvez utiliser une SQLtransformation pour écrire votre propre transformation sous la forme d'une SQL requête.

Un nœud de SQL transformation peut avoir plusieurs ensembles de données en entrée, mais ne produit qu'un seul ensemble de données en sortie. Il contient un champ de texte dans lequel vous pouvez saisir la SQL requête Apache Spark. Vous pouvez attribuer des alias à chaque ensemble de données utilisé en entrée, afin de simplifier la SQL requête. Pour plus d'informations sur la SQL syntaxe, consultez la SQLdocumentation de Spark.

Note

Si vous utilisez une SQL transformation Spark avec une source de données située dans unVPC, ajoutez un AWS Glue VPC point de terminaison VPC contenant la source de données. Pour plus d'informations sur la configuration des points de terminaison de développement, veuillez consulter les rubriques Ajout d'un point de terminaison de développement, Configuration de votre environnement pour les points de terminaison de développement, et Accès à votre point de terminaison de développement dans le Guide du développeur AWS Glue .

Pour utiliser un nœud de SQL transformation dans votre diagramme de tâches
  1. (Facultatif) Ajoutez un nœud de transformation au diagramme de tâche, si nécessaire. Choisissez SQLRequête pour le type de nœud.

    Note

    Si vous utilisez une session d'aperçu des données et un nœud de code personnalisé SQL ou personnalisé, la session d'aperçu des données exécutera le bloc de code SQL ou tel quel pour l'ensemble de données.

  2. Sur la page Node properties (Propriétés de nœud) au cours de la tâche, saisissez un nom pour le nœud dans le diagramme de tâche. Si aucun nœud parent n'est déjà sélectionné, ou si vous souhaitez plusieurs entrées pour la SQL transformation, choisissez un nœud dans la liste des parents de nœuds à utiliser comme source d'entrée pour la transformation. Ajoutez d'autres nœuds parents si nécessaire.

  3. Choisissez l'onglet Transformation dans le volet de détails du nœud.

  4. Les ensembles de données source pour la SQL requête sont identifiés par les noms que vous avez spécifiés dans le champ Nom pour chaque nœud. Si vous ne souhaitez pas utiliser ces noms, ou s'ils ne conviennent pas à une SQL requête, vous pouvez associer un nom à chaque ensemble de données. La console fournit des alias par défaut, tels que MyDataSource.

    Par exemple, si un nœud parent du nœud de SQL transformation est nomméRename Org PK field, vous pouvez associer ce nom org_table à cet ensemble de données. Cet alias peut ensuite être utilisé dans la SQL requête à la place du nom du nœud.

  5. Dans le champ de saisie de texte sous le titre Bloc de code, collez ou saisissez la SQL requête. Le champ de texte affiche un surlignage SQL syntaxique et des suggestions de mots clés.

  6. Le nœud de SQL transformation étant sélectionné, choisissez l'onglet Schéma de sortie, puis sélectionnez Modifier. Indiquez les colonnes et les types de données qui décrivent les champs de sortie de la SQL requête.

    Spécifiez le schéma à l'aide des actions suivantes dans la section Output Schema (Schéma de sortie) de la page :

    • Pour renommer une colonne, placez le curseur dans la zone Key (Clé) pour la colonne (également appelée field (champ ) ou property key (clé de propriété)) et entrez le nouveau nom.

    • Pour modifier le type de données d'une colonne, sélectionnez le nouveau type de données de la colonne dans la liste déroulante.

    • Pour ajouter une nouvelle colonne de niveau supérieur au schéma, choisissez le bouton Overflow (Surcharger) ( A rectangle with an ellipsis (...) in the center ), puis choisissez Add root key (Ajouter une clé racine). De nouvelles colonnes sont ajoutées en haut du schéma.

    • Pour supprimer une colonne du schéma, choisissez l'icône de suppression ( An outline of a trash can ) à l'extrême droite du nom de la clé.

  7. Lorsque vous avez terminé de spécifier le schéma en sortie, choisissez Apply (Appliquer) pour enregistrer vos modifications et quittez l'éditeur de schéma. Si vous ne souhaitez pas enregistrer de modifications, choisissez Cancel (Annuler) pour quitter l'éditeur de schéma.

  8. (Facultatif) Après avoir configuré les propriétés du nœud et les propriétés de transformation, vous pouvez prévisualiser le jeu de données modifié en sélectionnant l'onglet Prévisualisation des données dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un IAM rôle pour accéder aux données. L'utilisation de cette fonctionnalité entraîne un coût, et la facturation commence dès que vous fournissez un IAM rôle.