Utiliser Union pour combiner des lignes - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser Union pour combiner des lignes

Vous utilisez le nœud de transformation Union lorsque vous souhaitez combiner des lignes provenant de plusieurs sources de données ayant le même schéma.

Il existe deux types de transformations Union :

  1. ALL : lorsque vous appliquez ALL, l'union qui en résulte ne supprime pas les lignes en double.

  2. DISTINCT : lorsque vous appliquez DISTINCT, l'union qui en résulte supprime les lignes dupliquées.

Unions vs. jointures

Vous utilisez Union pour combiner des lignes. Vous utilisez Jointure pour combiner des colonnes.

Utilisation de la transformation Union dans le canevas ETL visuel
  1. Ajoutez plusieurs sources de données pour effectuer une transformation Union. Pour ajouter une source de données, ouvrez le panneau Ressources, puis sélectionnez la source de données dans l'onglet Sources. Avant d'utiliser la transformation Union, vous devez vous assurer que toutes les sources de données impliquées dans l'union ont le même schéma et la même structure.

  2. Lorsque vous souhaitez combiner au moins deux sources de données à l'aide de la transformation Union, créez la transformation Union en l'ajoutant au canevas. Ouvrez le panneau Ressources sur le canevas et recherchez « Union ». Vous pouvez également choisir l'onglet Transformer dans le panneau Ressources et faire défiler la page vers le bas jusqu'à ce que vous trouviez la transformation Union, puis choisir Union.

  3. Sélectionnez le nœud Union sur le canevas de la tâche. Dans la fenêtre Propriétés du nœud, choisissez les nœuds parents à connecter à la transformation Union.

  4. AWS Glue vérifie la compatibilité pour s'assurer que la transformation Union peut être appliquée à toutes les sources de données. Si le schéma des sources de données est identique, l'opération sera autorisée. Si les sources de données n'ont pas le même schéma, un message d'erreur non valide s'affiche : « Les schémas d'entrée de cette union ne sont pas identiques. Envisagez d'utiliser ApplyMapping pour faire correspondre les schémas. » Pour résoudre ce problème, choisissez Utiliser ApplyMapping.

  5. Choisissez le type d'union.

    1. All : par défaut, le type d'union All est sélectionné ; cela entraînera des lignes dupliquées s'il y en a dans la combinaison de données.

    2. Distinct : choisissez Distinct si vous souhaitez que les lignes dupliquées soient supprimées de la combinaison de données résultante.