Utilisation de la transformation Fractionner la chaîne pour diviser une colonne de chaînes - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de la transformation Fractionner la chaîne pour diviser une colonne de chaînes

La transformation Fractionner la chaîne vous permet de diviser une chaîne en un tableau de jetons à l'aide d'une expression régulière pour définir la manière dont la division est effectuée. Vous pouvez alors conserver la colonne sous forme de tableau ou appliquer une transformation Tableau vers colonnes après celle-ci, pour extraire les valeurs du tableau dans les champs de niveau supérieur, en supposant que chaque jeton a une signification que nous connaissons à l'avance. De plus, si l'ordre des jetons n'est pas pertinent (par exemple, un ensemble de catégories), vous pouvez utiliser la transformation Exploser pour générer une ligne distincte pour chaque valeur.

Par exemple, vous pouvez diviser la colonne « catégories » en utilisant une virgule comme modèle pour ajouter une colonne « categories_arr ».

product_id categories categories_arr
1 sports,hiver [sports, hiver]
2 jardin,outils [jardin, outils]
3 jeux vidéo [jeux vidéo]
4 jeu,jeu de plateau,social [jeu, jeu de plateau, social]
Pour ajouter une transformation Fractionner la chaîne :
  1. Ouvrez le panneau Ressources, puis choisissez Fractionner la chaîne pour ajouter une nouvelle transformation à votre diagramme de tâches. Le nœud sélectionné au moment de l'ajout du nœud sera son parent.

  2. (Facultatif) Dans l'onglet Propriétés de nœud, vous pouvez saisir un nom pour le nœud dans le diagramme de tâches. Si aucun parent de nœud n'est déjà sélectionné, choisissez un nœud dans la liste Node parents (Parents de nœud) à utiliser comme source pour la transformation.

  3. Dans l'onglet Transformer, choisissez la colonne à fractionner et saisissez le modèle à utiliser pour fractionner la chaîne. Dans la plupart des cas, vous pouvez simplement saisir le ou les caractères, sauf s'ils ont une signification particulière en tant qu'expression régulière et doivent être échappés. Les caractères qui doivent être échappés sont les suivants : \.[]{}()<>*+-=!?^$| en ajoutant une barre oblique inverse devant le caractère. Par exemple, si vous souhaitez séparer par un point (« . »), vous devez saisir \.. Cependant, une virgule n'a pas de signification particulière et peut simplement être spécifiée telle quelle : ,.

    La capture d'écran montre l'onglet Transformer pour la transformation de Fractionner la chaîne.
  4. (Facultatif) Si vous souhaitez conserver la colonne de chaîne d'origine, vous pouvez saisir un nom pour une nouvelle colonne de tableau, en conservant ainsi à la fois la colonne de chaîne d'origine et la nouvelle colonne de tableau tokenisée.