Nœuds de transformation de données gérées par AWS Glue

Transformez les données grâce AWS Glue à des transformations gérées

AWS Glue Studio fournit deux types de transformations :

Transformations AWS Glue natives : disponibles pour tous les utilisateurs et gérées par AWS Glue.
Transformations visuelles personnalisées : permettent de télécharger vos propres transformations à utiliser dans AWS Glue Studio

Nœuds de transformation de données gérées par AWS Glue

AWS Glue Studio fournit un ensemble de transformations intégrées que vous pouvez utiliser pour traiter vos données. Vos données passent d'un nœud dans le diagramme de tâches à un autre, dans une structure de données appelée DynamicFrame, qui est une extension d'un DataFrame SQL Apache Spark.

Dans le diagramme prérempli d'une tâche, entre la source de données et les nœuds de données cibles, se trouve le nœud de transformation Modifier le schéma. Vous pouvez configurer ce nœud de transformation pour modifier vos données ou utiliser des transformations supplémentaires.

Les transformations intégrées suivantes sont disponibles avec AWS Glue Studio :

ChangeSchema: Mappez les clés de propriété des données de la source de données aux clés de propriété des données de la cible de données. Vous pouvez renommer les clés, modifier leur type de données et choisir les clés à supprimer du jeu de données.
SelectFields: Choisissez les clés de propriété des données que vous souhaitez conserver.
DropFields: Choisissez les clés de propriété des données que vous souhaitez supprimer.
RenameField: renommez une seule clé de propriété de données.
Spigot : écrivez des échantillons de données dans un compartiment Amazon S3.
Join : joignez deux jeux de données dans un jeu de données à l'aide d'une phrase de comparaison sur les clés de propriété de données spécifiées. Vous pouvez utiliser des jointures internes (ou intérieures), externes (ou extérieures), gauche, droite, semi gauche et anti gauche.
Union : combinez les lignes de plusieurs sources de données ayant le même schéma.
SplitFields: Divisez les clés de propriété des données en deuxDynamicFrames. Le résultat est une collection de DynamicFrames : une avec les clés de propriété de données sélectionnées, et une autre avec les clés de propriété de données restantes.
SelectFromCollection: Choisissez-en un DynamicFrame parmi une collection deDynamicFrames. Le résultat est le DynamicFrame sélectionné.
FillMissingValues: Localisez les enregistrements de l'ensemble de données qui contiennent des valeurs manquantes et ajoutez un nouveau champ avec une valeur suggérée déterminée par imputation
Filter : divisez un jeu de données en deux, en fonction d'une condition de filtrage.
Drop Null Fields : supprime les colonnes du jeu de données si toutes les valeurs de la colonne sont « null ».
Drop Duplicates : supprime des lignes de votre source de données en choisissant de faire correspondre des lignes entières ou de spécifier des clés.
SQL : entrez le code SparkSQL dans un champ de saisie de texte pour utiliser une requête SQL pour transformer les données. Le résultat est un DynamicFrame unique .
Regrouper : effectue un calcul (tel que la moyenne, la somme, le minimum, le maximum) sur les champs et les lignes sélectionnés, et crée un nouveau champ avec la ou les valeurs nouvellement calculées.
Aplatir : extraie les champs des structs dans les champs de niveau supérieur.
UUID : ajoute une colonne avec un identifiant unique universel pour chaque ligne.
Identifiant : ajoute une colonne avec un identifiant numérique pour chaque ligne.
En horodatage : convertit une colonne en type horodatage.
Formater l'horodatage : convertit une colonne d'horodatage en chaîne formatée.
Transformation du routeur conditionnel : applique plusieurs conditions aux données entrantes. Chaque ligne des données entrantes est évaluée par une condition de filtre de groupe et traitée dans le groupe correspondant.
Transformation Concaténer des colonnes : créez une colonne de chaîne en utilisant les valeurs d'autres colonnes avec un espacement facultatif.
Transformation Diviser la chaîne : divisez une chaîne en un tableau de jetons à l'aide d'une expression régulière pour définir la manière dont la division est effectuée.
Transformation Tableau vers colonnes : extrayez certains ou tous les éléments d'une colonne de type tableau dans de nouvelles colonnes.
Transformation Ajouter un horodatage actuel : marquez les lignes avec l'heure à laquelle les données ont été traitées. Ceci est utile à des fins d'audit ou pour suivre la latence dans le pipeline de données.
Transformation Faire pivoter les lignes en colonnes : agrégez une colonne numérique en faisant pivoter des valeurs uniques sur des colonnes sélectionnées qui deviennent de nouvelles colonnes. Si plusieurs colonnes sont sélectionnées, les valeurs sont concaténées pour nommer les nouvelles colonnes.
Transformation Dépivoter les colonnes en lignes : convertissez des colonnes en valeurs de nouvelles colonnes en générant une ligne pour chaque valeur unique.
Transformation Traitement de l'équilibre automatique : redistribuez mieux les données entre les travailleurs. Cela est utile dans les cas où les données sont déséquilibrées ou lorsque la source ne permet pas un traitement parallèle suffisant.
Transformation Colonnes dérivées : définissez une nouvelle colonne basée sur une formule mathématique ou une expression SQL dans laquelle vous pouvez utiliser d'autres colonnes dans les données, ainsi que des constantes et des littéraux.
Transformation Rechercher : ajoutez des colonnes à partir d'une table de catalogue définie lorsque les clés correspondent aux colonnes de recherche définies dans les données.
Transformation Éclater le tableau ou la carte en lignes : extrayez les valeurs d'une structure imbriquée en lignes individuelles plus faciles à manipuler.
Transformation Correspondance d'enregistrements : invoquez une transformation de classification de données de machine learning Correspondance des enregistrements existante.
Transformation Supprimer les lignes nulles : supprimez du jeu de données les lignes dont toutes les colonnes sont nulles ou vides.
Transformation Analyser la colonne JSON : analysez une colonne de chaîne contenant des données JSON et convertissez-la en une structure ou en une colonne de tableau, selon que le JSON est respectivement un objet ou un tableau.
Transformation Extraire le chemin JSON : extrayez les nouvelles colonnes d'une colonne de chaîne JSON.
Extraire des fragments de chaînes d'une expression régulière : extrayez des fragments de chaîne à l'aide d'une expression régulière et créez une colonne à partir de celle-ci, ou plusieurs colonnes si vous utilisez des groupes d'expressions régulières.
Custom transform : saisissez du code dans un champ de saisie de texte pour utiliser des transformations personnalisées. Le résultat est une collection de DynamicFrames.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fonctionnalités de l'éditeur de tâche

Utilisation d'une recette de préparation des données dans AWS Glue Studio