Extraction de fragments de chaîne à l'aide d'une expression régulière - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Extraction de fragments de chaîne à l'aide d'une expression régulière

Cette transformation extrait des fragments de chaîne à l'aide d'une expression régulière et crée une nouvelle colonne à partir de celle-ci, ou plusieurs colonnes si vous utilisez des groupes d'expressions régulières.

Pour ajouter un nœud de transformation Extracteur d'expressions régulières à votre diagramme de tâche
  1. Ouvrez le panneau Ressources, puis choisissez Extracteur d'expressions régulières pour ajouter une nouvelle transformation à votre diagramme de tâches. Le nœud sélectionné au moment de l'ajout du nœud sera son parent.

  2. Dans le panneau des propriétés du nœud, vous pouvez saisir un nom pour le nœud dans le diagramme de tâches. Si aucun parent de nœud n'est déjà sélectionné, choisissez un nœud dans la liste de Node parents (Parents de nœud) à utiliser comme source pour la transformation.

  3. Dans l'onglet Transformer, saisissez l'expression régulière et la colonne sur laquelle elle doit être appliquée. Saisissez ensuite le nom de la nouvelle colonne dans laquelle vous souhaitez stocker la chaîne de caractères correspondante. La nouvelle colonne sera nulle uniquement si la colonne source est nulle, si l'expression régulière ne correspond pas, la colonne sera vide.

    Si l'expression régulière utilise des groupes, il doit y avoir un nom de colonne correspondant séparé par une virgule, mais vous pouvez ignorer les groupes en laissant le nom de colonne vide.

    Par exemple, si vous avez une colonne « purchase_date » avec une chaîne utilisant à la fois des formats de date ISO longs et courts, vous souhaitez extraire l'année, le mois, le jour et l'heure, lorsqu'ils sont disponibles. Remarquez que le groupe « heure » est facultatif, sinon dans les lignes où il n'y a pas de données disponibles, tous les groupes extraits seraient des chaînes vides (car l'expression régulière ne correspond pas). Dans ce cas, nous ne voulons pas que le groupe rende l'heure facultative, mais plutôt la partie interne. Nous laissons donc le nom vide et il ne sera pas extrait (ce groupe inclurait le caractère T).

    La capture d'écran montre la configuration d'une expression régulière pour l'extracteur d'expressions régulières.

    L'aperçu des données s'affiche :

    La capture d'écran montre la configuration d'un aperçu des données pour l'extracteur d'expressions régulières.