Utilisation d'une requête SQL pour transformer des données

Vous pouvez utiliser une transformation SQL pour écrire votre propre transformation sous la forme d'une requête SQL.

Un nœud de transformation SQL peut avoir plusieurs jeux de données source, mais ne produit qu'un seul jeu de données en sortie. Dans contient un champ de texte, dans lequel vous saisir la requête Apache SparkSQL. Vous pouvez attribuer des alias à chaque jeu de données utilisé en entrée, pour contribuer à simplifier la requête SQL. Pour plus d'informations sur la syntaxe SQL, veuillez consulter la documentation Spark SQL.

Note

Si vous utilisez une transformation SQL Spark avec une source de données située dans un VPC, ajoutez un point de terminaison d'un VPC AWS Glue au VPC qui contient la source de données. Pour plus d'informations sur la configuration des points de terminaison de développement, veuillez consulter les rubriques Ajout d'un point de terminaison de développement, Configuration de votre environnement pour les points de terminaison de développement, et Accès à votre point de terminaison de développement dans le Guide du développeur AWS Glue .

Pour utiliser un nœud de transformation SQL dans votre diagramme de tâche

(Facultatif) Ajoutez un nœud de transformation au diagramme de tâche, si nécessaire. Choisissez SQL Query pour le type de nœud.

Note
Si vous utilisez une session d'aperçu des données et un code SQL personnalisé ou un nœud de code personnalisé, la session d'aperçu des données exécutera le code SQL ou le bloc de code tel quel pour l'ensemble de données.
Sur la page Node properties (Propriétés de nœud) au cours de la tâche, saisissez un nom pour le nœud dans le diagramme de tâche. Si un parent de nœud n'est pas déjà sélectionné ou si vous souhaitez plusieurs entrées pour la transformation SQL, choisissez un nœud dans la liste Node parents (Parents de nœud) à utiliser comme source pour la transformation. Ajoutez d'autres nœuds parents si nécessaire.
Choisissez l'onglet Transformation dans le volet de détails du nœud.
Les jeux de données source de la requête SQL sont identifiés par les noms que vous avez spécifiés dans le champ Name (Nom) de chaque nœud. Si vous ne souhaitez pas utiliser ces noms, ou si les noms ne conviennent pas à une requête SQL, vous pouvez associer un nom à chaque jeu de données. La console fournit des alias par défaut, tels que MyDataSource.

Par exemple, si un nœud parent du nœud de transformation SQL est nommé Rename Org PK field, vous pouvez associer le nom org_table à ce jeu de données. Cet alias peut ensuite être utilisé dans la requête SQL à la place du nom du nœud.
Dans le champ de saisie de texte sous l'en-tête Bloc de code, collez ou saisissez la requête SQL. Le champ de texte affiche la mise en évidence de la syntaxe SQL et des suggestions de mots-clés.
Lorsque le nœud de transformation SQL est sélectionné, choisissez l'option Schema (Schéma), puis choisissez Edit (Modifier). Indiquez les colonnes et les types de données qui décrivent les champs de sortie de la requête SQL.

Spécifiez le schéma à l'aide des actions suivantes dans la section Output Schema (Schéma de sortie) de la page :
- Pour renommer une colonne, placez le curseur dans la zone Key (Clé) pour la colonne (également appelée field (champ ) ou property key (clé de propriété)) et entrez le nouveau nom.
- Pour modifier le type de données d'une colonne, sélectionnez le nouveau type de données de la colonne dans la liste déroulante.
- Pour ajouter une nouvelle colonne de niveau supérieur au schéma, choisissez le bouton Overflow (Surcharger) ( ), puis choisissez Add root key (Ajouter une clé racine). De nouvelles colonnes sont ajoutées en haut du schéma.
- Pour supprimer une colonne du schéma, choisissez l'icône de suppression ( ) à l'extrême droite du nom de la clé.
Lorsque vous avez terminé de spécifier le schéma en sortie, choisissez Apply (Appliquer) pour enregistrer vos modifications et quittez l'éditeur de schéma. Si vous ne souhaitez pas enregistrer de modifications, choisissez Cancel (Annuler) pour quitter l'éditeur de schéma.
(Facultatif) Après avoir configuré les propriétés du nœud et les propriétés de transformation, vous pouvez prévisualiser le jeu de données modifié en sélectionnant l'onglet Prévisualisation des données dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un rôle IAM pour accéder aux données. Il y a un coût associé à l'utilisation de cette fonction, et la facturation commence dès que vous fournissez le rôle IAM.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation DropNullFields pour supprimer des champs contenant des valeurs nulles

Utilisation de Agrégation pour effectuer des calculs récapitulatifs sur des champs sélectionnés