Transformation de données - Amazon SageMaker

Transformation de données

Amazon SageMaker Data Wrangler fournit de nombreuses transformations de données ML pour rationaliser le nettoyage, la transformation et la mise en forme de vos données. Lorsque vous ajoutez une transformation, elle ajoute une étape au flux de données. Chaque transformation que vous ajoutez modifie votre jeu de données et génère un nouveau nom de données. Toutes les transformations suivantes s'appliquent au dataframe résultant.

Data Wrangler inclut des transformations intégrées, que vous pouvez utiliser pour transformer des colonnes sans code. Vous pouvez également ajouter des transformations personnalisées à l'aide de PySpark, Pandas et PySpark SQL. Certaines transformations sont appliquées directement, tandis que d'autres créent une nouvelle colonne de sortie dans votre jeu de données.

Lisez cette page pour en savoir plus sur ces transformations intégrées et personnalisées.

Interface utilisateur de transformation

La plupart des transformations intégrées sont situées dans l'onglet Prepare (Préparation) de l'interface utilisateur Data Wrangler. Les transformations Join (Joindre) et Concatenate (Concaténer) sont accessibles via la vue de flux de données. Utilisez le tableau suivant pour avoir un aperçu de ces deux vues.

Transform

Pour accéder aux transformations dans l'onglet Prepare (Préparation), cliquez sur le symbole + en regard d'une étape de votre flux de données, puis cliquez sur Add transform (Ajouter une transformation).

Dans l'onglet Prepare (Préparation), vous ajoutez des étapes sous Add (Ajouter).

Vous pouvez utiliser l'onglet Previous steps (Étapes précédentes) pour afficher et supprimer les transformations que vous avez ajoutées, dans l'ordre séquentiel.

Join View

Pour joindre deux jeux de données, sélectionnez le premier jeu de données de votre flux de données et cliquez sur Join (Joindre). Lorsque vous cliquez sur Join (Joindre), des résultats similaires à ceux de l'image suivante s'affichent. Vos jeux de données gauche et droite s'affichent dans le volet de gauche. Le volet principal affiche votre flux de données, avec le jeu de données nouvellement joint ajouté.

Lorsque vous cliquez sur Configure (Configurer) pour configurer votre jointure, vous verrez des résultats similaires à ceux affichés dans l'image suivante. Votre configuration de jointure s'affiche dans le volet de gauche. Vous pouvez utiliser ce panneau pour choisir le nom du jeu de données joint, le type de jointure et les colonnes à joindre. Le volet principal affiche trois tableaux. Les deux premiers tableaux affichent les jeux de données Gauche et Droite respectivement à gauche et à droite. Sous ce tableau, vous pouvez prévisualiser le jeu de données joint.

Pour en savoir plus, veuillez consulter Joindre des jeux de données.

Concatenate View

Pour concaténer deux jeux de données, sélectionnez le premier jeu de données de votre flux de données et cliquez sur Concatenate (Concaténer). Lorsque vous cliquez sur Concatenate, vous verrez des résultats similaires à ceux affichés dans l'image suivante. Vos jeux de données gauche et droite s'affichent dans le volet de gauche. Le volet principal affiche votre flux de données, avec le jeu de données nouvellement concaténé ajouté.

Lorsque vous cliquez sur Configure (Configurer) pour configurer votre concaténation, vous verrez des résultats similaires à ceux affichés dans l'image suivante. Votre configuration de concaténation s'affiche dans le volet de gauche. Vous pouvez utiliser ce volet pour choisir le nom du jeu de données concaténé, et choisir de supprimer les doublons après la concaténation et d'ajouter des colonnes pour indiquer le dataframe source. Le volet principal affiche trois tableaux. Les deux premiers tableaux affichent les jeux de données Gauche et Droite respectivement à gauche et à droite. Sous ce tableau, vous pouvez prévisualiser le jeu de données concaténé.

Pour en savoir plus, veuillez consulter Concaténer des jeux de données.

Joindre des jeux de données

Vous joignez des dataframes directement dans votre flux de données. Lorsque vous joignez deux jeux de données, le jeu de données joint résultant apparaît dans votre flux. Les types de jointure suivants sont pris en charge par Data Wrangler.

  • Left Outer – Inclut toutes les lignes de la table de gauche. Si la valeur de la colonne jointe dans une ligne de la table de gauche ne correspond à aucune valeur de ligne de la table de droite, cette ligne contient des valeurs nulles pour toutes les colonnes de la table de droite dans la table jointe.

  • Left Anti – Inclut les lignes de la table de gauche qui ne contiennent pas de valeurs dans la table de droite pour la colonne jointe.

  • Left Semi – Inclut une seule ligne de la table de gauche pour toutes les lignes identiques répondant aux critères de l'instruction de jointure. Ceci exclut les lignes en double de la table de gauche qui correspondent aux critères de la jointure.

  • Right Outer – Inclut toutes les lignes de la table de gauche. Si la valeur de la colonne jointe dans une ligne de la table de droite ne correspond à aucune valeur de ligne de la table de gauche, cette ligne contient des valeurs nulles pour toutes les colonnes de table de gauche de la table jointe.

  • INNER – Inclut les lignes des tables de gauche et de droite qui contiennent des valeurs correspondantes dans la colonne jointe.

  • Full Outer – Inclut toutes les lignes des tables de gauche et de droite. Si la valeur de ligne de la colonne jointe dans l'une ou l'autre des tables ne correspond pas, des lignes séparées sont créées dans la table jointe. Si une ligne ne contient pas de valeur pour une colonne de la table jointe, null est inséré pour cette colonne.

  • Cartesian Cross – Inclut les lignes qui combinent chaque ligne de la première table avec chaque ligne de la seconde table. Il s'agit d'un produit cartésien des lignes des tables de la jointure. Le résultat de ce produit est la taille de la table de gauche multipliée par la taille de la table de droite. Par conséquent, nous vous recommandons de faire preuve de prudence lorsque vous utilisez cette jointure entre des jeux de données très volumineux.

Utilisez la procédure suivante pour joindre deux dataframes.

  1. Cliquez sur le symbole + en regard de la base de données de gauche que vous souhaitez joindre. Le premier dataframe que vous sélectionnez est toujours la table de gauche de votre jointure.

  2. Cliquez sur Join (Joindre).

  3. Sélectionnez le dataframe de droite. Le deuxième dataframe que vous sélectionnez est toujours la table de droite dans votre jointure.

  4. Cliquez sur Configure (Configurer) pour configurer votre jointure.

  5. Donnez un nom à votre jeu de données joint en utilisant le champ Name (Nom).

  6. Sélectionnez un Join type (Type de jointure).

  7. Sélectionnez une colonne dans les tables de gauche et de droite pour effectuer la jointure.

  8. Cliquez sur Apply (Appliquer) pour afficher un aperçu du jeu de données joint à droite.

  9. Pour ajouter la table jointe à votre flux de données, cliquez sur Add (Ajouter) dans le coin supérieur droit.

Concaténer des jeux de données

Concaténez deux jeux de données :

  1. Cliquez sur le symbole + en regard de la base de données de gauche que vous souhaitez concaténer. Le premier dataframe que vous sélectionnez est toujours la table de gauche de votre concaténation.

  2. Cliquez sur Concatenate (Concaténer).

  3. Sélectionnez le dataframe de droite. Le deuxième dataframe que vous sélectionnez est toujours la table de droite dans votre concaténation.

  4. Cliquez sur Configure (Configurer) pour configurer votre concaténation.

  5. Donnez un nom à votre jeu de données concaténé en utilisant le champ Name (Nom).

  6. (Facultatif) Cochez la case en regard de Remove duplicates after concatenation (Supprimer les doublons après concaténation) pour supprimer les colonnes en double.

  7. (Facultatif) Cochez la case en regard de Add column to indicate source dataframe (Ajouter une colonne pour indiquer le nom de base de données source) si, pour chaque colonne du nouveau jeu de données, vous souhaitez ajouter un indicateur de la source de la colonne.

  8. Cliquez sur Apply (Appliquer) pour afficher un aperçu du nouveau jeu de données.

  9. Cliquez sur Add (Ajouter) pour ajouter le nouveau jeu de données à votre flux de données.

Transformations personnalisées

Le groupe Custom Transforms (Transformations personnalisées) vous permet d'utiliser Pyspark, Pandas ou Pyspark (SQL) pour définir des transformations personnalisées. Pour ces trois options, vous utilisez la variable df pour accéder au dataframe auquel vous souhaitez appliquer la transformation. Il n'est pas nécessaire d'inclure une déclaration de retour. Cliquez sur Preview (Aperçu) pour afficher un aperçu du résultat de la transformation personnalisée. Cliquez sur Add (Ajouter) pour ajouter la transformation personnalisée à votre liste Previous steps (Étapes précédentes).

Vous pouvez importer les bibliothèques populaires à l'aide d'une instruction import dans le bloc de code de la transformation personnalisée :

  • Numpy version 1.19.0

  • Scikit-Learn version 0.23.2

  • Scipy version 1.5.4

  • Pandas version 1.0.3

  • Pyspark version 3.0.0

Si vous incluez des instructions d'impression dans le bloc de code, le résultat apparaît lorsque vous cliquez sur Preview (Aperçu).

Les exemples suivants illustrent la manière dont vous pouvez utiliser le bloc de code des transformations personnalisées :

PySpark

L'exemple suivant extrait la date et l'heure d'un horodatage.

from pyspark.sql.functions import from_unixtime, to_date, date_format df = df.withColumn('DATE_TIME', from_unixtime('TIMESTAMP')) df = df.withColumn( 'EVENT_DATE', to_date('DATE_TIME')).withColumn( 'EVENT_TIME', date_format('DATE_TIME', 'HH:mm:ss'))

Pandas

L'exemple suivant fournit une vue d'ensemble du dataframe auquel vous ajoutez des transformations.

df.info()

PySpark (SQL)

Ce qui suit crée un nouveau nom de données avec cinq colonnes : name (nom), fare (tarif), pclass, survived (survécu).

SELECT name, fare, pclass, survived FROM df

Formule personnalisée

Utilisez Custom formula (Formule personnalisée) pour définir une nouvelle colonne à l'aide d'une expression Spark SQL pour interroger des données dans le dataframe actuel. La requête doit utiliser les conventions des expressions Spark SQL.

Important

Custom formula (Formule personnalisée) ne prend pas en charge les colonnes avec des espaces dans le nom. Vous pouvez utiliser la transformation Rename column (Renommer une colonne) dans le groupe de transformation Manage columns (Gérer les colonnes) pour supprimer des espaces du nom d'une colonne. Vous pouvez également ajouter une Custom transform (Transformation personnalisée) Pandas similaire à ce qui suit pour supprimer des espaces de plusieurs colonnes en une seule étape. Cet exemple modifie les colonnes nommées A column et B column en A_column et B_column, respectivement.

df.rename(columns={"A column": "A_column", "B column": "B_column"})

Vous pouvez utiliser cette transformation pour effectuer des opérations sur les colonnes, en référençant les colonnes par leur nom. Par exemple, en supposant que le dataframe actuel contient des colonnes nommées col_a et col_b, vous pouvez utiliser l'opération suivante pour produire une Output column (Colonne de sortie) qui est le produit de ces deux colonnes en utilisant le code suivant :

col_a * col_b

Les autres opérations courantes sont les suivantes, en supposant qu'un dataframe contient les colonnes col_a et col_b :

  • Concaténer deux colonnes : concat(col_a, col_b)

  • Ajouter deux colonnes : col_a + col_b

  • Soustraire deux colonnes : col_a - col_b

  • Diviser deux colonnes : col_a / col_b

  • Prendre la valeur absolue d'une colonne : abs(col_a)

Pour plus d'informations, consultez la documentation Spark sur la sélection des données.

Encodage catégoriel

Les données catégorielles sont généralement composées d'un nombre fini de catégories, où chacune d'elles est représentée par une chaîne. Par exemple, si vous disposez d'une table de données client, une colonne indiquant le pays dans lequel vit une personne est de type catégorie. Les catégories seraient l'Afghanistan, l'Albanie, l'Algérie, etc. Les données de catégorie peuvent être nominales ou ordinales. Les catégories ordinales ont un ordre inhérent, et les catégories nominales n'en ont pas. Le diplôme le plus élevé obtenu (Lycée, Bachelors, Master) est un exemple de catégories ordinales.

Le codage des données catégorielles est le processus de création d'une représentation numérique pour les catégories. Par exemple, si vos catégories sont Chien et Chat, vous pouvez encoder ces informations en deux vecteurs : [1,0] pour représenter Chien, et [0,1] pour représenter Chat.

Lorsque vous encodez des catégories ordinales, vous devez parfois traduire l'ordre naturel des catégories dans votre codage. Par exemple, vous pouvez représenter le degré le plus élevé obtenu avec la carte suivante : {"High school": 1, "Bachelors": 2, "Masters":3}.

Utilisez le codage catégoriel pour encoder des données catégorielles au format chaîne dans des tableaux d'entiers.

Les codeurs catégoriels Data Wrangler créent des codages pour toutes les catégories qui existent dans une colonne au moment de la définition de l'étape. Si de nouvelles catégories ont été ajoutées à une colonne lorsque vous démarrez une tâche Data Wrangler pour traiter votre jeu de données au temps t, et que cette colonne était l'entrée d'une transformation d'encodage catégoriel Data Wrangler au temps t-1, ces nouvelles catégories sont considérées comme manquantes dans la tâche Data Wrangler. L'option que vous sélectionnez pour Invalid handling strategy (Politique de gestion non valide) est appliquée à ces valeurs manquantes. Voici des exemples de cas où cela peut se produire :

  • Lorsque vous utilisez un fichier .flow pour créer une tâche Data Wrangler dans le but de traiter un jeu de données mis à jour après la création du flux de données. Par exemple, vous pouvez utiliser un flux de données pour traiter régulièrement les données de vente chaque mois. Si ces données de vente sont mises à jour chaque semaine, de nouvelles catégories peuvent être introduites dans des colonnes pour lesquelles une étape de codage catégoriel est définie.

  • Lorsque vous sélectionnez Sampling (Échantillonnage) lors de l'importation de votre jeu de données, il se peut que certaines catégories soient exclues de l'échantillon.

Dans ces situations, ces nouvelles catégories sont considérées comme des valeurs manquantes dans la tâche Data Wrangler.

Vous pouvez choisir entre un codage ordinal ou un codage à chaud et le configurer. Utilisez les sections suivantes pour en savoir plus sur ces options.

Les deux transformations créent une nouvelle colonne nommée Output column name (Nom de colonne de sortie). Vous spécifiez le format de sortie de cette colonne avec Output style (Style de sortie) :

  • Choisissez Vector (Vecteur) pour produire une seule colonne avec un vecteur fragmenté.

  • Choisissez Columns (Colonne) pour créer une colonne pour chaque catégorie avec une variable indicatrice pour savoir si le texte de la colonne d'origine contient une valeur égale à cette catégorie.

Encodage ordinal

Choisissez Ordinal encode (Encodage ordinal) pour encoder les catégories dans un entier compris entre 0 et le nombre total de catégories dans Input column (Colonne d'entrée) que vous sélectionnez.

Invalid handing strategy (Politique de remise non valide) : sélectionnez une méthode pour gérer les valeurs invalides ou manquantes.

  • Choisissez Skip (Ignorer) si vous souhaitez omettre les lignes avec des valeurs manquantes.

  • Choisissez Keep (Conserver) pour conserver les valeurs manquantes comme dernière catégorie.

  • Choisissez Error (Erreur) si vous voulez que Data Wrangler lance une erreur si des valeurs manquantes sont rencontrées dans Input column (Colonne d'entrée).

  • Choisissez Replace with NaN (Remplacer par NaN) pour remplacer les valeurs manquantes par NaN. Cette option est recommandée si votre algorithme ML peut gérer les valeurs manquantes. Sinon, les trois premières options de cette liste pourraient produire de meilleurs résultats.

Encodage à chaud

Choisissez One-hot encode (Encodage à chaud) pour Transform (Transformation) afin d'utiliser un codage à chaud. Configurez cette transformation à l'aide des éléments suivants :

  • Drop last category (Supprimer la dernière catégorie) : si la valeur est True, la dernière catégorie n'a pas d'index correspondant dans le codage à chaud. Lorsque des valeurs manquantes sont possibles, une catégorie manquante est toujours la dernière et si la valeur est True, cela signifie qu'une valeur manquante donne lieu à un vecteur entièrement nul.

  • Invalid handing strategy (Politique de remise non valide) : sélectionnez une méthode pour gérer les valeurs invalides ou manquantes.

    • Choisissez Skip (Ignorer) si vous souhaitez omettre les lignes avec des valeurs manquantes.

    • Choisissez Keep (Conserver) pour conserver les valeurs manquantes comme dernière catégorie.

    • Choisissez Error (Erreur) si vous voulez que Data Wrangler lance une erreur si des valeurs manquantes sont rencontrées dans Input column (Colonne d'entrée).

  • Is input ordinal encoded (L'entrée est codée en ordinal) : sélectionnez cette option si le vecteur d'entrée contient des données encodées en ordinal. Cette option nécessite que les données d'entrée contiennent des entiers non négatifs. Si la valeur est Vrai, l'entrée i est codée en tant que vecteur avec une valeur non nulle dans la ième position.

Texte enrichi

Utilisez le groupe de transformation Feature Text (Texte enrichi) pour inspecter les colonnes de type chaîne de caractères et utiliser l'encapsulation de texte pour enrichir ces colonnes.

Ce groupe d'entités contient deux fonctionnalités, Character statistics (Statistiques de caractères) et Vectorize (Vectoriser). Utilisez les sections suivantes pour en apprendre plus sur ces options. Pour les deux options, Input column (Colonne d'entrée) doit contenir des données de texte (type chaîne).

Statistiques de caractères

Utilisez Character statistics (Statistiques de caractères) pour générer des statistiques pour chaque ligne d'une colonne contenant des données textuelles.

Cette opération permet de calculer les ratios et les dénombrements suivants pour chaque ligne et de créer une nouvelle colonne pour signaler le résultat. La nouvelle colonne est nommée en utilisant le nom de la colonne en entrée comme préfixe et un suffixe spécifique au ratio ou au nombre.

  • Nombre de mots : nombre total de mots dans cette ligne. Le suffixe de cette colonne de sortie est -stats_word_count.

  • Nombre de caractères : nombre total de caractères dans cette ligne. Le suffixe de cette colonne de sortie est -stats_char_count.

  • Ratio des majuscules : nombre de caractères majuscules, de A à Z, divisé par tous les caractères de la colonne. Le suffixe de cette colonne de sortie est -stats_capital_ratio.

  • Ratio des minuscules : nombre de caractères minuscules, de a à z, divisé par tous les caractères de la colonne. Le suffixe de cette colonne de sortie est -stats_lower_ratio.

  • Ratio des chiffres : rapport du nombre de chiffres dans une seule ligne sur la somme des chiffres dans la colonne d'entrée. Le suffixe de cette colonne de sortie est -stats_digit_ratio.

  • Rapport de caractères spéciaux : rapport entre les caractères non alphanumériques (caractères tels que #$&% : @) et la somme de tous les caractères dans la colonne d'entrée. Le suffixe de cette colonne de sortie est -stats_special_ratio.

Vectorize

L'encapsulation de texte consiste à mettre en correspondance des mots ou des phrases d'un vocabulaire avec des vecteurs de nombres réels. Utilisez la transformation d'encapsulation de texte de Data Wrangler pour créer des jetons et vectoriser les données de texte en vecteurs TF-IDF (fréquence de document inverse).

Lorsque TF-IDF est calculé pour une colonne de données textuelles, chaque mot de chaque phrase est converti en nombre réel qui représente son importance sémantique. Des nombres plus élevés sont associés à des mots moins fréquents, qui ont tendance à être plus significatifs.

Lorsque vous définissez une transformation Vectorize (Vectoriser), le vectorisateur de comptage et les méthodes TF-IDF sont définis en utilisant les données disponibles dans Data Wrangler lors de la définition de cette étape. Ces mêmes méthodes seront utilisées lors de l'exécution d'une tâche Data Wrangler.

Vous configurez cette transformation à l'aide des éléments suivants :

  • Output column name (Nom de colonne de sortie) : cette transformation crée une nouvelle colonne avec l'encapsulation du texte. Utilisez ce champ pour spécifier un nom pour cette colonne de sortie.

  • Tokenizer (Créateur de jetons) : un tokenizer convertit la phrase en une liste de mots, ou jetons.

    Choisissez Standard pour utiliser un tokenizer qui sépare les mots par des espaces vides et convertit chaque mot en minuscules. Par exemple, "Good dog" est tokenizé en ["good","dog"].

    Choisissez Custom (Personnalisé) pour utiliser un tokenizer personnalisé. Si vous choisissez Custom (Personnalisé), vous pouvez utiliser les champs suivants pour configurer le jeton :

    • Minimum token length (Longueur minimum du jeton) : longueur minimale, en caractères, pour qu'un jeton soit valide. La valeur par défaut est 1. Par exemple, si vous spécifiez 3 comme longueur minimale du jeton, les mots comme a, at, in sont supprimés de la phrase tokenisée.

    • Should regex split on gaps (La regex doit-elle se diviser en espaces) : si cette option est sélectionnée, regex se divise en espaces. Sinon, la valeur correspond aux jetons. La valeur par défaut est True.

    • Regex pattern (Motif Regex) : modèle regex qui définit le processus de création de jeton. La valeur par défaut est ' \\ s+'.

    • To lowercase (En minuscules) : si cette option est sélectionnée, tous les caractères sont convertis en minuscules avant la création de jeton. La valeur par défaut est True.

    Pour en savoir plus, reportez-vous à la rubrique sur la création de jetons de la documentation Spark.

  • Vectorizer (Vectoriseur) : le vectoriseur convertit la liste des jetons en un vecteur numérique fragmenté. Chaque jeton correspond à un index dans le vecteur et une valeur non-nulle indique l'existence du jeton dans la phrase d'entrée. Vous avez le choix entre deux options de vectoriseur, Count (Nombre) et Hashing (Hachage).

    • Count vectorize (Comptage vectoriel) permet des personnalisations qui filtrent des jetons peu fréquents ou trop courants. Les paramètres de comptage vectoriel comprennent notamment :

      • Minimum term frequency (Périodicité minimum) : dans chaque ligne, les termes (jetons) avec une fréquence plus faible sont filtrés. Si vous spécifiez un entier, il s'agit d'un seuil absolu (inclusif). Si vous spécifiez une fraction comprise entre 0 (inclusif) et 1, le seuil est relatif au nombre total de termes. La valeur par défaut est 1.

      • Minimum document frequency (Fréquence minimale des documents) : nombre minimum de lignes dans lesquelles un terme (jeton) doit apparaître pour être inclus. Si vous spécifiez un entier, il s'agit d'un seuil absolu (inclusif). Si vous spécifiez une fraction comprise entre 0 (inclusif) et 1, le seuil est relatif au nombre total de termes. La valeur par défaut est 1.

      • Maximum document frequency (Fréquence maximale des documents) : nombre maximal de documents (lignes) dans lesquels un terme (jeton) peut apparaître pour être inclus. Si vous spécifiez un entier, il s'agit d'un seuil absolu (inclusif). Si vous spécifiez une fraction comprise entre 0 (inclusif) et 1, le seuil est relatif au nombre total de termes. La valeur par défaut est 0.999.

      • Maximum vocabulary size (Taille maximum du vocabulaire) : taille maximale du vocabulaire. Le vocabulaire est composé de tous les termes (jetons) de toutes les lignes de la colonne. La valeur par défaut est 262144.

      • Binary outputs (Sorties binaires) : si cette option est sélectionnée, les sorties vectorielles n'incluent pas le nombre d'apparitions d'un terme dans un document, mais constituent plutôt un indicateur binaire de son apparition. La valeur par défaut est False.

      Pour de plus amples informations sur cette option, veuillez consulter la rubrique CountVectorizer de la documentation Spark.

    • Hashing (Hachage) est plus rapide sur le plan informatique. Les paramètres de hachage comprennent notamment :

      • Number of features during hashing (Nombre de fonctions pendant le hachage) : un vectorisateur de hachage mappe les jetons à un index vectoriel en fonction de leur valeur de hachage. Cette fonction détermine le nombre de valeurs de hachage possibles. Les valeurs élevées entraînent moins de collisions entre les valeurs de hachage, mais un vecteur de sortie de dimension plus élevée.

      Pour de plus amples informations sur cette option, veuillez consulter la rubrique FeatureHasher de la documentation Spark

  • Apply IDF (Appliquer IDF) : lorsque ce paramètre est choisi, une transformation IDF est appliquée, qui multiplie la fréquence du terme par la fréquence du document inverse standard utilisée pour l'encapsulation TF-IDF. Les paramètres IDF comprennent les suivants :

    • Minimum document frequency (Fréquence minimale des documents) : nombre minimal de documents (lignes) dans lesquels un terme (jeton) doit apparaître pour être inclus. Si count_vectorize est le vectorisateur choisi, nous vous recommandons de conserver la valeur par défaut et de ne modifier que le champ min_doc_freq dans Count vectorize parameters (Paramètres de comptage vectoriel). La valeur par défaut est 5.

  • Output format (Format de sortie) : le format de sortie de chaque ligne.

    • Choisissez Vector (Vecteur) pour produire une seule colonne avec un vecteur fragmenté.

    • Choisissez Flattened (Aplati) pour créer une colonne pour chaque catégorie avec une variable indicatrice indiquant si le texte de la colonne d'origine contient une valeur égale à cette catégorie. Vous ne pouvez choisir flattened (aplati) que lorsque Vectorizer (Vectoriseur) est défini sur Count vectorizer (Comptage vectoriel).

Transformer les séries temporelles

Dans Data Wrangler, vous pouvez transformer les données de séries temporelles. Les valeurs d'un jeu de données de séries temporelles sont indexées à une heure spécifique. Par exemple, un jeu de données qui affiche le nombre de clients dans un magasin pour chaque heure de la journée est un jeu de données de série temporelle. Le tableau suivant présente un exemple d'un jeu de données de série temporelle.

Nombre de clients dans un magasin par heure
Nombre de clients Heure (heure)
4 8:00
10 10:00
14 11:00
25 12:00
20 13:00
18 14:00

Dans le tableau précédent, la colonne « Nombre de clients » contient les données de séries temporelles. Les données des séries temporelles sont indexées aux données horaires dans la colonne « Heure (heure) ».

Vous devrez peut-être effectuer une série de transformations sur vos données pour les obtenir dans un format que vous pouvez utiliser pour votre analyse. Utilisez le groupe de transformation Times series (Séries temporelles) pour transformer vos données de séries temporelles. Pour plus d'informations sur les transformations que vous pouvez effectuer, veuillez consulter les sections suivantes.

Grouper par série temporelle

Vous pouvez utiliser l'opération Group by (Regrouper par) afin de regrouper des données de séries temporelles pour des valeurs spécifiques dans une colonne.

Par exemple, le tableau ci-dessous suit la consommation quotidienne moyenne d'électricité d'un ménage :

Consommation quotidienne moyenne d'électricité d'un ménage
ID du ménage Horodatage quotidien Consommation d'électricité (kWh) Nombre d'occupants du ménage
ménage_0 01/01/2020 30 2
ménage_0 01/02/2020 40 2
ménage_0 01/04/2020 35 3
ménage_1 01/02/2020 45 3
ménage_1 01/03/2020 55 4

Si vous choisissez de regrouper les ménages par ID, le tableau suivant s'affiche :

Consommation d'électricité regroupée par ID de ménage
ID du ménage Série Consommation d'électricité (kWh) Série Nombre d'occupants du ménage
ménage_0 [30, 40, 35] [2, 2, 3]
ménage_1 [45, 55] [3, 4]

Chaque entrée de la séquence des séries temporelles est classée en fonction de l'horodatage correspondant. Le premier élément de la séquence correspond au premier horodatage de la série. Pour household_0, 30 est la première valeur de la série Consommation d'électricité. La valeur de 30 correspond au premier horodatage de 1/1/2020.

Vous pouvez inclure l'horodatage de début et l'horodatage de fin. Le tableau suivant montre comment ils apparaissent.

Consommation d'électricité regroupée par ID de ménage
ID du ménage Série Consommation d'électricité (kWh) Série Nombre d'occupants du ménage Start_Time End_Time
ménage_0 [30, 40, 35] [2, 2, 3] 01/01/2020 01/04/2020
ménage_1 [45, 55] [3, 4] 01/02/2020 01/03/2020

Vous pouvez utiliser la procédure suivante pour regrouper par colonne de séries temporelles.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Time Series (Séries temporelles).

  6. Sous Transform (Transformer), choisissez Group by (Grouper par).

  7. Spécifiez une colonne dans Group by this column (Regrouper par cette colonne).

  8. Pour Apply to columns (Appliquer aux colonnes), spécifiez une valeur.

  9. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  10. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Rééchantillonner les données de séries temporelles

Les données de séries temporelles contiennent généralement des observations qui ne sont pas effectuées à intervalles réguliers. Par exemple, un jeu de données peut comporter des observations enregistrées toutes les heures et d'autres observations enregistrées toutes les deux heures.

De nombreuses analyses, telles que les algorithmes de prédiction, exigent que les observations soient effectuées à intervalles réguliers. Le rééchantillonnage vous permet d'établir des intervalles réguliers pour les observations de votre jeu de données.

Vous pouvez rééchantillonner ou sous-échantillonner une série temporelle. Le sous-échantillonnage augmente l'intervalle entre les observations dans le jeu de données. Par exemple, si vous sous-échantillonnez les observations qui sont effectuées toutes les heures ou toutes les deux heures, chaque observation de votre jeu de données est effectuée toutes les deux heures. Les observations horaires sont agrégées en une seule valeur à l'aide d'une méthode d'agrégation telle que la moyenne ou la médiane.

Le suréchantillonnage réduit l'intervalle entre les observations dans le jeu de données. Par exemple, si vous rééchantillonnez les observations effectuées toutes les deux heures en observations horaires, vous pouvez utiliser une méthode d'interpolation pour déduire les observations horaires de celles qui sont effectuées toutes les deux heures. Pour plus d'informations sur les méthodes d'interpolation, veuillez consulter pandas.DataFrame.interpolate.

Vous pouvez rééchantillonner à la fois des données numériques et non numériques.

Utilisez l'opération Resample (Rééchantillonner) pour rééchantillonner vos données de séries temporelles. Si vous avez plusieurs séries temporelles dans votre jeu de données, Data Wrangler standardise l'intervalle de temps pour chaque série temporelle.

Voici un exemple de sous-échantillonnage des données de séries temporelles en utilisant la moyenne comme méthode d'agrégation. Les données sont sous-échantillonnées toutes les deux heures à toutes les heures.

Lectures de température horaires plus d'un jour avant le sous-échantillonnage
Horodatage Température (Celsius)
12:00 30
1:00 32
2:00 35
3:00 32
4:00 30
Lectures de température sous-échantillonnées toutes les deux heures
Horodatage Température (Celsius)
12:00 30
2:00 33,5
2:00 35
4:00 32,5

Vous pouvez utiliser la procédure suivante pour rééchantillonner des données de séries temporelles.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Resample (Rééchantillonner).

  6. Pour Timestamp (Horodatage), choisissez la colonne d'horodatage.

  7. Pour Frequency unit (Unité de fréquence), spécifiez la fréquence que vous allez rééchantillonner.

  8. Facultatif : spécifiez une valeur pour Frequency quantity (Quantité de fréquence).

  9. Configurez la transformation en spécifiant les champs restants.

  10. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  11. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Gestion des données de séries temporelles manquantes

Si vous ne disposez pas de valeurs dans votre jeu de données, vous pouvez effectuer l'une des actions suivantes :

  • Pour les jeux de données comportant plusieurs séries temporelles, supprimez les séries temporelles qui comportent des valeurs manquantes supérieures à un seuil spécifié.

  • Imputez les valeurs manquantes d'une série temporelle en utilisant d'autres valeurs de la série temporelle.

L'imputation d'une valeur manquante implique le remplacement des données en spécifiant une valeur ou en utilisant une méthode inférentielle. Voici les méthodes que vous pouvez utiliser pour l'imputation :

  • Valeur constante : remplacez toutes les données manquantes dans votre jeu de données par une valeur que vous spécifiez.

  • Valeur la plus courante : remplacez toutes les données manquantes par la valeur ayant la fréquence la plus élevée dans le jeu de données.

  • Remplissage avant : utilisez le remplissage avant pour remplacer les valeurs manquantes par la valeur non manquante qui précède les valeurs manquantes. Pour la séquence [2, 4, 7, NaN, NaN, NaN, 8], toutes les valeurs manquantes sont remplacées par 7. La séquence résultant de l'utilisation d'un remplissage avant est [2, 4, 7, 7, 7, 7, 8].

  • Remplissage arrière : utilisez le remplissage arrière pour remplacer les valeurs manquantes par la valeur non manquante qui suit les valeurs manquantes. Pour la séquence : [2, 4, 7, NaN, NaN, NaN, 8], toutes les valeurs manquantes sont remplacées par 8. La séquence résultant de l'utilisation d'un remplissage arrière est [2, 4, 7, 8, 8, 8, 8].

  • Interpolation : utilise une fonction d'interpolation pour imputer les valeurs manquantes. Pour en savoir plus sur les fonctions que vous pouvez utiliser pour l'interpolation, veuillez consulter pandas.DataFrame.interpolate.

Certaines méthodes d'imputation ne peuvent pas imputer toutes les valeurs manquantes de votre jeu de données. Par exemple, le remplissage avant ne peut pas imputer une valeur manquante qui apparaît au début de la série temporelle. Vous pouvez imputer les valeurs à l'aide d'un remplissage avant ou d'un remplissage arrière.

Vous pouvez imputer des valeurs manquantes dans une cellule ou dans une colonne.

L'exemple suivant montre comment les valeurs sont imputées dans une cellule.

Consommation d'électricité avec des valeurs manquantes
ID du ménage Série Consommation d'électricité (kWh)
ménage_0 [30, 40, 35, NaN, NaN]
ménage_1 [45, NaN, 55]
Consommation d'électricité avec valeurs imputées à l'aide d'un remplissage avant
ID du ménage Série Consommation d'électricité (kWh)
ménage_0 [30, 40, 35, 35, 35]
ménage_1 [45, 45, 55]

L'exemple suivant montre comment les valeurs sont imputées dans une colonne.

Consommation quotidienne moyenne d'électricité d'un ménage avec des valeurs manquantes
ID du ménage Consommation d'électricité (kWh)
ménage_0 30
ménage_0 40
ménage_0 NaN
ménage_1 NaN
ménage_1 NaN
Consommation quotidienne moyenne d'électricité d'un ménage avec des valeurs imputées à l'aide d'un remplissage avant
ID du ménage Consommation d'électricité (kWh)
ménage_0 30
ménage_0 40
ménage_0 40
ménage_1 40
ménage_1 40

Vous pouvez utiliser la procédure suivante pour gérer les valeurs manquantes.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Handle missing (Gérer les valeurs manquantes).

  6. Pour Time series input type (Type d'entrée de série temporelle), indiquez si vous souhaitez gérer les valeurs manquantes à l'intérieur d'une cellule ou le long d'une colonne.

  7. Pour Impute missing values for this column (Imputer les valeurs manquantes de cette colonne), spécifiez la colonne contenant les valeurs manquantes.

  8. Pour Method for imputing values (Méthode d'imputation des valeurs), sélectionnez une méthode.

  9. Configurez la transformation en spécifiant les champs restants.

  10. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  11. Si vous avez des valeurs manquantes, vous pouvez spécifier une méthode pour les imputer sous Method for imputing values (Méthode d'imputation des valeurs).

  12. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Valider l'horodatage de vos données de séries temporelles

Il se peut que certaines données d'horodatage ne soient pas valides. Vous pouvez utiliser la fonction Validate time stamp (Valider l'horodatage) pour déterminer si les horodatages de votre jeu de données sont valides. Votre horodatage peut être invalide pour une ou plusieurs des raisons suivantes :

  • Votre colonne d'horodatage comporte des valeurs manquantes.

  • Les valeurs de votre colonne d'horodatage ne sont pas formatées correctement.

Si vous avez des horodatages non valides dans votre jeu de données, vous ne pourrez pas effectuer votre analyse correctement. Vous pouvez utiliser Data Wrangler pour identifier les horodatages non valides et comprendre où vous devez nettoyer vos données.

La validation des séries temporelles fonctionne de l'une des deux manières suivantes :

Vous pouvez configurer Data Wrangler pour effectuer l'une des actions suivantes s'il rencontre des valeurs manquantes dans votre jeu de données :

  • Supprimez les lignes avec les valeurs manquantes ou non valides.

  • Identifiez les lignes avec les valeurs manquantes ou non valides.

  • Lancez une erreur s'il détecte des valeurs manquantes ou non valides dans votre jeu de données.

Vous pouvez valider les horodatages sur les colonnes qui ont le type timestamp ou string. Si la colonne comporte le type string, Data Wrangler convertit le type de la colonne en timestamp et effectue la validation.

Vous pouvez utiliser la procédure suivante pour valider les horodatages de votre jeu de données.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Validate timestamps (Valider les horodatages).

  6. Pour Timestamp Column (Colonne d'horodatage), choisissez la colonne d'horodatage.

  7. Pour Policy (Politique), choisissez si vous souhaitez gérer les horodatages manquants.

  8. Facultatif : pour Output column (Colonne de sortie), spécifiez le nom de la colonne de sortie.

  9. Si la colonne de date et d'heure est formatée pour le type de chaîne, choisissez Cast to datetime (Conversion en valeur datetime).

  10. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  11. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Standardisation de la longueur des séries temporelles

Si des données de séries temporelles sont stockées sous forme de tableaux, vous pouvez standardiser chaque série temporelle à la même longueur. La standardisation de la longueur du tableau de séries temporelles peut faciliter l'exécution de votre analyse sur les données.

Vous pouvez standardiser vos séries temporelles pour les transformations de données nécessitant la correction de la longueur de vos données.

De nombreux algorithmes ML exigent que vous aplatiez vos données de séries temporelles avant de les utiliser. L'aplatissement des données de séries temporelles consiste à séparer chaque valeur de la série temporelle dans sa propre colonne dans un jeu de données. Le nombre de colonnes d'un jeu de données ne peut pas changer. Par conséquent, les longueurs de la série temporelle doivent être standardisées en aplatissant chaque tableau en un ensemble de ressources.

Chaque série temporelle est définie sur la longueur que vous spécifiez sous forme de quantile ou de centile du jeu de séries temporelles. Par exemple, vous pouvez avoir trois séquences ayant les longueurs suivantes :

  • 3

  • 4

  • 5

Vous pouvez définir la longueur de toutes les séquences comme étant la longueur de la séquence ayant la longueur du 50e centile.

Des valeurs manquantes sont ajoutées aux tableaux de séries temporelles qui sont inférieures à la longueur spécifiée. Voici un exemple de format de standardisation de série temporelle en longueur supérieure : [2, 4, 5, NaN, NaN, NaN].

Vous pouvez utiliser différentes approches pour gérer les valeurs manquantes. Pour plus d'informations sur ces approches, veuillez consulter Gestion des données de séries temporelles manquantes.

Les tableaux de séries temporelles qui sont plus longues que la longueur spécifiée sont tronqués.

Vous pouvez utiliser la procédure suivante pour standardiser la longueur des séries temporelles.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Standardize length (Standardiser la longueur).

  6. Pour Standardize the time series length for the column (Standardiser la longueur des séries temporelles de la colonne), choisissez une colonne.

  7. Facultatif : pour Output column (Colonne de sortie), spécifiez le nom de la colonne de sortie. Si vous ne spécifiez pas de nom, la transformation est effectuée sur place.

  8. Si la colonne de date et d'heure est formatée pour le type de chaîne, choisissez Cast to datetime (Conversion en valeur datetime).

  9. Choisissez Cutoff quantile (Quantile de coupure), spécifiez un quantile pour définir la longueur de la séquence.

  10. Choisissez Flatten the output (Aplatir la sortie) pour afficher les valeurs de la série temporelle dans des colonnes distinctes.

  11. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  12. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Date/Heure enrichie

Utilisez Featurize date/time (Date/Heure enrichie) pour créer une encapsulation vectorielle représentant un champ date/heure. Pour utiliser cette transformation, vos données de date/heure doivent être dans l'un des formats suivants :

  • Chaînes décrivant la date/heure, par exemple, "January 1st, 2020, 12:44pm".

  • Horodatage Unix. Un horodatage unix décrit le nombre de secondes, millisecondes, microsecondes ou nanosecondes à partir du 1/1/1970.

Vous pouvez choisir de déduire le format date/heure et de fournir un format date/heure. Si vous fournissez un format date/heure, vous devez utiliser les codes décrits dans cette documentation Python. Les options que vous choisissez pour ces deux configurations ont des répercussions sur la rapidité de l'opération et sur les résultats finaux :

  • L'option la plus manuelle et la plus rapide sur le plan informatique consiste à spécifier un Datetime format (Format date/heure) et de sélectionner No (Non) pour Infer datetime format (Déduire le format date/heure).

  • Pour réduire le travail manuel, vous pouvez simplement choisir Infer datetime format (Déduire le format date/heure) et ne pas spécifier de format date/heure. Il s'agit également d'une opération rapide sur le plan du calcul ; cependant, le premier format date/heure rencontré dans la colonne d'entrée est supposé être le format de la colonne entière. Par conséquent, si d'autres formats sont rencontrés dans la colonne, ces valeurs sont NaN dans la sortie finale. De ce fait, cette option peut donner lieu à des chaînes de caractères non analysées.

  • Si vous ne spécifiez aucun format et que vous sélectionnez No (Non) pour Infer datetime format (Déduire le format date/heure), vous obtenez les résultats les plus robustes. Toutes les chaînes de date/heure valides sont analysées. Toutefois, cette opération peut être beaucoup plus lente que les deux premières options de cette liste.

Lorsque vous utilisez cette transformation, vous spécifiez une Input column (Colonne d'entrée) qui contient des données de date/heure dans l'un des formats énumérés ci-dessus. La transformation crée une colonne de sortie nommée Output column name (Nom de colonne de sortie). Le format de la colonne de sortie dépend de votre configuration en utilisant les éléments suivants :

  • Vector (Vecteur) : affiche une seule colonne en tant que vecteur.

  • Columns (Colonnes) : crée une colonne pour chaque entité. Par exemple, si la sortie contient une année, un mois et un jour, trois colonnes distinctes sont créées pour l'année, le mois et le jour.

De plus, vous devez choisir un Embedding mode (Mode d'encapsulation). Pour les modèles linéaires et les réseaux profonds, cyclic (cyclique) est recommandé. Pour les algorithmes basés sur l'arbre, ordinal est recommandé.

Vous pouvez utiliser la procédure suivante pour créer une intégration vectorielle qui représente un champ de date/heure.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Featurize datetime (Caractériser la date et l'heure).

  6. Pour Input column (Colonne d'entrée), choisissez la colonne d'entrée.

  7. Facultatif : pour Output column (Colonne de sortie), choisissez la colonne de sortie. Si vous ne spécifiez pas de nom, la transformation est effectuée sur place.

  8. Spécifiez les champs restants.

  9. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  10. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Extraire des fonctions de vos données de séries temporelles

Si vous exécutez une classification ou un algorithme de régression sur vos données de séries temporelles, nous vous recommandons d'extraire des ressources de la série temporelle avant d'exécuter l'algorithme. L'extraction de ressources peut améliorer la performance de votre algorithme.

Utilisez les options suivantes pour choisir la façon dont vous souhaitez extraire des ressources de vos données :

  • Utilisez Minimal subset (Sous-ensemble minimal) pour spécifier l'extraction de 8 ressources que vous savez utiles dans les analyses en aval. Vous pouvez utiliser un sous-ensemble minimal lorsque vous devez effectuer des calculs rapidement. Vous pouvez également l'utiliser lorsque votre algorithme ML présente un risque élevé de surajustement et que vous souhaitez lui fournir moins de ressources.

  • Utilisez Efficient subset (Sous-ensemble efficace) pour spécifier l'extraction du plus grand nombre de ressources possibles sans toutefois extraire de ressources qui sont gourmandes en calcul dans vos analyses.

  • Utilisez All features (Toutes les ressources) pour spécifier l'extraction de toutes les ressources de la série de réglage.

  • Utilisez Manual subset (Sous-ensemble manuel) pour choisir une liste de ressources qui, selon vous, expliquent bien la variation de vos données.

Suivez la procédure suivante pour extraire des ressources de vos données de séries temporelles.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Extract features (Extraire des ressources).

  6. Pour Extract features for this column (Extraire des ressources de cette colonne), choisissez une colonne.

  7. Facultatif : sélectionnez Flatten (Aplatir) pour afficher les ressources dans des colonnes distinctes.

  8. Pour Strategy (Stratégie), choisissez une stratégie pour extraire les ressources.

  9. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  10. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Utiliser des ressources décalées issues de vos données de séries temporelles

Dans de nombreux cas d'utilisation, la meilleure façon de prédire le comportement futur de vos séries temporelles consiste à utiliser leur comportement le plus récent.

Voici les utilisations les plus courantes des entités décalées :

  • Collecter les dernières valeurs. Par exemple, pour le temps, t + 1, vous collectez t, t - 1, t - 2 et t - 3.

  • Collecter des valeurs correspondant au comportement saisonnier dans les données. Par exemple, pour prédire l'occupation d'un restaurant à 13 h 00, vous pouvez utiliser les ressources depuis 13 h 00 la veille. L'utilisation des ressources depuis 12 h 00 ou 11 h 00 le même jour peut altérer la qualité de la prédiction par rapport à l'utilisation des ressources des jours précédents.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Lag features (Ressources de décalage).

  6. Pour Generate lag features for this column (Générer des fonctions de décalage pour cette colonne), choisissez une colonne.

  7. Pour Timestamp Column (Colonne d'horodatage), choisissez la colonne contenant les horodatages.

  8. Pour Lag (Décalage), spécifiez la durée du décalage.

  9. Facultatif : configurez la sortie à l'aide de l'une des options suivantes :

    • Include the entire lag window (Inclure l'intégralité de la fenêtre de décalage)

    • Flatten the output (Aplatir la sortie)

    • Drop rows withou history (Supprimer les lignes sans historique)

  10. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  11. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Créer une plage de date/heure dans votre série temporelle

Il se peut que vous ayez des données de séries temporelles qui n'ont pas d'horodatage. Si vous savez que les observations ont été effectuées à intervalles réguliers, vous pouvez générer des horodatages pour la série temporelle dans une colonne distincte. Pour générer des horodatages, vous spécifiez la valeur de l'horodatage de début et la fréquence des horodatages.

Voici un exemple de données de série temporelle pour le nombre de clients d'un restaurant.

Données de série temporelle sur le nombre de clients dans un restaurant
Nombre de clients
10
14
24
40
30
20

Si vous savez que le restaurant a ouvert ses portes à 17 h 00 et que des observations sont effectuées toutes les heures, vous pouvez ajouter une colonne d'horodatage correspondant aux données de la série temporelle. Vous pouvez voir la colonne d'horodatage dans le tableau suivant.

Données de série temporelle sur le nombre de clients dans un restaurant
Nombre de clients Horodatage
10 13 h 00
14 14 h 00
24 15 h 00
40 16 h 00
30 17 h 00
20 18 h 00

Utilisez la procédure suivante pour ajouter une plage de date/heure à vos données.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Datetime range (Plage de date/heure).

  6. Pour Frequency type (Type de fréquence), choisissez l'unité utilisée pour mesurer la fréquence des horodatages.

  7. Pour Starting timestamp (Horodatage de début), spécifiez l'horodatage de début.

  8. Pour Output column (Colonne de sortie), spécifiez le nom de la colonne de sortie.

  9. Facultatif : configurez la sortie à l'aide des champs restants.

  10. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  11. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Utiliser une fenêtre propagée dans votre série temporelle

Vous pouvez extraire des ressources sur une période donnée. Par exemple, pour le temps, t, et une longueur de fenêtre temporelle de 3, et pour la ligne qui indique le t-ème horodatage, nous ajoutons les ressources extraites de la série temporelle aux temps t - 3, t - 2 et t - 1. Pour en savoir plus sur l'extraction des ressources, veuillez consulter Extraire des fonctions de vos données de séries temporelles.

Vous pouvez utiliser la procédure suivante pour extraire des ressources sur une période.

  1. Ouvrez votre flux de données Data Wrangler.

  2. Si vous n'avez pas importé votre jeu de données, importez-le sous l'onglet Import data (Importer des données).

  3. Dans votre flux de données, sous Data types (Types de données), choisissez le +, puis sélectionnez Add transformation (Ajouter une transformation).

  4. Choisissez Add step (Ajouter une étape).

  5. Choisissez Rolling window features (Ressources de fenêtre propagée).

  6. Pour Generate rolling window features for this column (Générer des ressources de fenêtre propagée pour cette colonne), choisissez une colonne.

  7. Pour Timestamp Column (Colonne d'horodatage), choisissez la colonne contenant les horodatages.

  8. Facultatif : pour Output Column (Colonne de sortie), définissez le nom de la colonne de sortie.

  9. Pour Window size (Taille de fenêtre), spécifiez la taille de la fenêtre.

  10. Pour Strategy (Stratégie), choisissez la stratégie d'extraction.

  11. Choisissez Preview (Prévisualisation) pour générer une prévisualisation de la transformation.

  12. Choisissez Add (Ajouter) pour ajouter la transformation au flux de données Data Wrangler.

Date/Heure enrichie

Utilisez Featurize date/time (Date/Heure enrichie) pour créer une encapsulation vectorielle représentant un champ date/heure. Pour utiliser cette transformation, vos données de date/heure doivent être dans l'un des formats suivants :

  • Chaînes décrivant la date/heure, par exemple, "January 1st, 2020, 12:44pm".

  • Horodatage Unix. Un horodatage unix décrit le nombre de secondes, millisecondes, microsecondes ou nanosecondes à partir du 1/1/1970.

Vous pouvez choisir de déduire le format date/heure et de fournir un format date/heure. Si vous fournissez un format date/heure, vous devez utiliser les codes décrits dans cette documentation Python. Les options que vous choisissez pour ces deux configurations ont des répercussions sur la rapidité de l'opération et sur les résultats finaux :

  • L'option la plus manuelle et la plus rapide sur le plan informatique consiste à spécifier un Datetime format (Format date/heure) et de sélectionner No (Non) pour Infer datetime format (Déduire le format date/heure).

  • Pour réduire le travail manuel, vous pouvez simplement choisir Infer datetime format (Déduire le format date/heure) et ne pas spécifier de format date/heure. Il s'agit également d'une opération rapide sur le plan du calcul ; cependant, le premier format date/heure rencontré dans la colonne d'entrée est supposé être le format de la colonne entière. Par conséquent, si d'autres formats sont rencontrés dans la colonne, ces valeurs sont NaN dans la sortie finale. De ce fait, cette option peut donner lieu à des chaînes de caractères non analysées.

  • Si vous ne spécifiez aucun format et que vous sélectionnez No (Non) pour Infer datetime format (Déduire le format date/heure), vous obtenez les résultats les plus robustes. Toutes les chaînes de date/heure valides sont analysées. Toutefois, cette opération peut être beaucoup plus lente que les deux premières options de cette liste.

Lorsque vous utilisez cette transformation, vous spécifiez une Input column (Colonne d'entrée) qui contient des données de date/heure dans l'un des formats énumérés ci-dessus. La transformation crée une colonne de sortie nommée Output column name (Nom de colonne de sortie). Le format de la colonne de sortie dépend de votre configuration en utilisant les éléments suivants :

  • Vector (Vecteur) : affiche une seule colonne en tant que vecteur.

  • Columns (Colonnes) : crée une colonne pour chaque entité. Par exemple, si la sortie contient une année, un mois et un jour, trois colonnes distinctes sont créées pour l'année, le mois et le jour.

De plus, vous devez choisir un Embedding mode (Mode d'encapsulation). Pour les modèles linéaires et les réseaux profonds, cyclic (cyclique) est recommandé. Pour les algorithmes basés sur l'arbre, ordinal est recommandé.

Formatage de chaîne

Les transformations Format string (Formatage de chaîne) contiennent des opérations de formatage de chaîne standard. Par exemple, vous pouvez utiliser ces opérations pour supprimer des caractères spéciaux, normaliser les longueurs de chaîne et mettre à jour le boîtier de chaîne.

Ce groupe de fonctions contient les transformations suivantes. Toutes les transformations renvoient des copies des chaînes dans Input column (Colonne d'entrée) et ajoutent le résultat à une nouvelle colonne de sortie.

Nom Fonction
Left pad

Padding à gauche de la chaîne avec un caractère de remplissage de longueur donnée. Si la chaîne dépasse la longueur, la valeur renvoyée est raccourcie au nombre de caractères de la longueur.

Right pad

Padding à droite de la chaîne avec un caractère de remplissage de longueur donnée. Si la chaîne dépasse la longueur, la valeur renvoyée est raccourcie au nombre de caractères de la longueur.

Center (pad on either side)

Padding central de la chaîne (padding ajouté des deux côtés de la chaîne) avec un caractère de remplissage de longueur donnée. Si la chaîne dépasse la longueur, la valeur renvoyée est raccourcie au nombre de caractères de la longueur.

Prepend zeros

Remplit à gauche une chaîne numérique avec des zéros, jusqu'à une longueur donnée. Si la chaîne dépasse la longueur, la valeur renvoyée est raccourcie au nombre de caractères de la longueur.

Strip left and right

Renvoie une copie de la chaîne avec les caractères de début et de fin supprimés.

Strip characters from left

Renvoie une copie de la chaîne avec les caractères de début supprimés.

Strip characters from right

Renvoie une copie de la chaîne dont les caractères de fin ont été supprimés.

Lower case

Convertit toutes les lettres du texte en minuscules.

Upper case

Convertit toutes les lettres du texte en majuscules.

Capitalize

Convertit en majuscule la première lettre de chaque phrase.

Swap case Convertit tous les caractères majuscules en minuscules et tous les caractères minuscules en majuscules dans la chaîne donnée, et la renvoie.
Add prefix or suffix

Ajoute un préfixe et un suffixe à la colonne de chaîne. Vous devez spécifier au moins l'un des éléments Prefix (Préfixe) et Suffix (Suffixe).

Remove Symbols

Supprime les symboles donnés d'une chaîne. Tous les caractères répertoriés sont supprimés. et remplacés par défaut par un espace.

Traiter les valeurs aberrantes

Les modèles de machine learning sont sensibles à la distribution et à l'étendue des valeurs de vos caractéristiques. Les valeurs aberrantes, ou rares, peuvent avoir un impact négatif sur la précision des modèles et allonger les durées d'entraînement. Utilisez ce groupe de caractéristiques pour détecter et mettre à jour les valeurs aberrantes dans votre jeu de données.

Lorsque vous définissez une transformation Handle outliers (Traiter les valeurs aberrantes), les statistiques utilisées pour détecter les valeurs aberrantes sont générées sur les données disponibles dans Data Wrangler lors de la définition de cette étape. Ces mêmes statistiques sont utilisées lors de l'exécution d'une tâche Data Wrangler.

Utilisez les sections suivantes pour en apprendre davantage sur les transformations que contient ce groupe. Vous spécifiez un Output name (Nom de sortie) et chacune de ces transformations produit une colonne de sortie avec les données résultantes.

Robust standard deviation numeric outliers (Écarts-types aberrants numériques robustes)

Cette transformation détecte et corrige les valeurs aberrantes dans les caractéristiques numériques à l'aide de statistiques robustes aux valeurs aberrantes.

Vous devez définir un Upper quantile (Quantile supérieur) et un Lower quantile (Quantile inférieur), qui sont utilisés dans les statistiques servant à calculer les valeurs aberrantes. Vous devez également spécifier le nombre de Standard deviations (Écarts-types) à partir duquel une valeur doit s'écarter de la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez 3 pour les Standard deviations (Écarts-types), une valeur doit s'écarter de plus de 3 écarts-types de la moyenne pour être considérée comme aberrante.

La méthode Fix est la méthode utilisée pour gérer les valeurs aberrantes lorsqu'elles sont détectées. Choisissez parmi les éléments suivants :

  • Clip (Découper) : utilisez cette option pour découper les valeurs aberrantes à la limite de détection des valeurs aberrantes correspondante.

  • Remove (Supprimer) : cette option permet de supprimer des lignes avec des valeurs aberrantes du dataframe.

  • Invalidate (Invalider) : utilisez cette option pour remplacer les valeurs aberrantes par des valeurs non valides.

Standard Deviation Numeric Outliers (Écarts-types aberrants numériques)

Cette transformation détecte et corrige les valeurs aberrantes dans les entités numériques à l'aide de la moyenne et de l'écart-type.

Vous spécifiez le nombre de Standard deviations (Écarts-types) qu'une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez 3 pour les Standard deviations (Écarts-types), une valeur doit s'écarter de plus de 3 écarts-types de la moyenne pour être considérée comme aberrante.

La méthode Fix est la méthode utilisée pour gérer les valeurs aberrantes lorsqu'elles sont détectées. Choisissez parmi les éléments suivants :

  • Clip (Découper) : utilisez cette option pour découper les valeurs aberrantes à la limite de détection des valeurs aberrantes correspondante.

  • Remove (Supprimer) : cette option permet de supprimer des lignes avec des valeurs aberrantes du dataframe.

  • Invalidate (Invalider) : utilisez cette option pour remplacer les valeurs aberrantes par des valeurs non valides.

Quantile Numeric Outliers (Quantiles numériques aberrants)

Utilisez cette transformation pour détecter et corriger les valeurs aberrantes dans les entités numériques à l'aide de quantiles. Vous pouvez définir un Upper quantile (Quantile supérieur) et un Lower quantile (Quantile inférieur), et toutes les valeurs qui se situent au-dessus ou au-dessous de ces quantiles, respectivement, sont considérées comme aberrantes.

La méthode Fix est la méthode utilisée pour gérer les valeurs aberrantes lorsqu'elles sont détectées. Choisissez parmi les éléments suivants :

  • Clip (Découper) : utilisez cette option pour découper les valeurs aberrantes à la limite de détection des valeurs aberrantes correspondante.

  • Remove (Supprimer) : cette option permet de supprimer des lignes avec des valeurs aberrantes du dataframe.

  • Invalidate (Invalider) : utilisez cette option pour remplacer les valeurs aberrantes par des valeurs non valides.

Min-Max Numeric Outliers (Valeurs numériques min-max aberrantes)

Cette transformation détecte et corrige les valeurs aberrantes dans les entités numériques à l'aide de seuils supérieurs et inférieurs. Utilisez cette méthode si vous connaissez des valeurs de seuil qui distinguent les valeurs aberrantes.

Vous spécifiez un Upper threshold (Seuil supérieur) et un Lower threshold (Seuil inférieur), et si des valeurs se situent au-dessus ou au-dessous de ces seuils, elles sont considérées comme aberrantes.

La méthode Fix est la méthode utilisée pour gérer les valeurs aberrantes lorsqu'elles sont détectées. Choisissez parmi les éléments suivants :

  • Clip (Découper) : utilisez cette option pour découper les valeurs aberrantes à la limite de détection des valeurs aberrantes correspondante.

  • Remove (Supprimer) : cette option permet de supprimer des lignes avec des valeurs aberrantes du dataframe.

  • Invalidate (Invalider) : utilisez cette option pour remplacer les valeurs aberrantes par des valeurs non valides.

Replace Rare (Remplacer les valeurs rares)

Lorsque vous utilisez la transformation Remplace rare (Remplacer les valeurs rares), vous spécifiez un seuil. Data Wrangler recherche toutes les valeurs qui atteignent ce seuil et les remplace par une chaîne que vous spécifiez. Par exemple, vous pouvez utiliser cette transformation pour classer toutes les valeurs aberrantes d'une colonne dans une catégorie « Autres ».

  • Replacement string (Chaîne de remplacement) : chaîne par laquelle remplacer les valeurs aberrantes.

  • Absolute threshold (Seuil absolu) : une catégorie est rare si le nombre d'instances est inférieur ou égal à ce seuil absolu.

  • Fraction threshold (Seuil de fraction) : une catégorie est rare si le nombre d'instances est inférieur ou égal à ce seuil de fraction multiplié par le nombre de lignes.

  • Max common categories (Nombre maximum de catégories communes) : nombre maximal de catégories non rares qui restent après l'opération. Si le seuil ne filtre pas suffisamment les catégories, celles qui présentent le plus grand nombre d'apparitions sont classées comme non rares. Si le paramètre est défini sur 0 (par défaut), il n'y a pas de limite fixe au nombre de catégories.

Handle Missing Values (Gestion des valeurs manquantes)

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning. Dans certaines situations, il convient d'imputer les données manquantes avec une valeur calculée, telle qu'une valeur moyenne ou catégoriquement commune. Vous pouvez traiter les valeurs manquantes à l'aide de la transformation de groupe Handle Missing Values (Gestion des valeurs manquantes). Ce groupe contient les transformations suivantes.

Fill Missing (Remplissage des valeurs manquantes)

Utilisez la transformation Fill missing (Remplissage des valeurs manquantes) pour remplacer les valeurs manquantes par une Fill value (Valeur de remplissage) que vous définissez.

Impute missing (Imputer les valeurs manquantes)

Utilisez la transformation Impute missing (Imputer les valeurs manquantes) pour créer une nouvelle colonne contenant des valeurs imputées où des valeurs manquantes ont été trouvées dans des données catégoriques et numériques en entrée. La configuration dépend de votre type de données. Configurez cette transformation à l'aide des éléments suivants :

  • Imputing strategy (Politique d'imputation) : politique utilisée pour déterminer la nouvelle valeur à imputer.

    Pour les données numériques, choisissez une politique d'imputation, utilisée pour déterminer la nouvelle valeur à imputer. Vous pouvez choisir d'imputer la moyenne ou la médiane sur les valeurs présentes dans votre jeu de données. Data Wrangler utilise la valeur calculée pour imputer les valeurs manquantes.

    Pour les données catégorielles, Data Wrangler impute les valeurs manquantes en utilisant la valeur la plus fréquente de la colonne. Pour imputer une chaîne personnalisée, utilisez la transformation Fill missing (Remplir les valeurs manquantes) à la place.

Add Indicator for Missing (Ajouter un indicateur de valeur manquante)

Utilisez la transformation Add Indicator for Missing (Ajouter un indicateur de valeur manquante) pour créer une colonne indicatrice, qui contient un booléen "false" si une ligne contient une valeur, et "true" si la valeur est manquante dans cette ligne.

Drop missing (Supprimer les valeurs manquantes)

Utilisez l'option Drop missing (Supprimer les valeurs manquantes) pour supprimer les lignes dans lesquelles des valeurs sont manquantes dans Input column (Colonne d'entrée).

Manage Columns (Gérer les colonnes)

Vous pouvez utiliser les transformations suivantes pour mettre à jour et gérer rapidement les colonnes de votre jeu de données :

Nom Fonction
Drop Column Supprimer une colonne.
Duplicate Column Dupliquer une colonne.
Rename Column Renommer une colonne.
Move Column

Déplacer une colonne dans le jeu de données. Choisissez de déplacer votre colonne vers le début ou la fin du jeu de données, avant ou après une colonne de référence, ou vers un index spécifique.

Manage Rows (Gérer les lignes)

Utilisez ce groupe de transformation pour effectuer rapidement des opérations de tri et de mélange sur les lignes. Ce niveau contient les éléments suivants :

  • Sort (Trier) : triez le dataframe entier par une colonne donnée. Cochez la case en regard de Ascending order (Ordre croissant) pour cette option ; sinon, désactivez la case et l'ordre décroissant est utilisé pour le tri.

  • Shuffle (Mélanger) : mélangez aléatoirement toutes les lignes du jeu de données.

Manage Vectors (Gérer les vecteurs)

Utilisez ce groupe de transformation pour combiner ou aplatir des colonnes vectorielles. Ce groupe contient les transformations suivantes.

  • Assemble (Assembler) : utilisez cette transformation pour combiner les vecteurs Spark et les données numériques en une seule colonne. Par exemple, vous pouvez combiner trois colonnes : deux contenant des données numériques et une contenant des vecteurs. Ajoutez toutes les colonnes que vous souhaitez combiner dans Input columns (Colonnes d'entrée) et spécifiez un Output column name (Nom de colonne de sortie) pour les données combinées.

  • Flatten (Aplatir) : utilisez cette transformation pour aplatir une seule colonne contenant des données vectorielles. La colonne d'entrée doit contenir des vecteurs PySpark ou des objets de type tableau. Vous pouvez contrôler le nombre de colonnes créées en spécifiant une Method to detect number of outputs (Méthode de détection du nombre de sorties). Par exemple, si vous sélectionnez Length of first vector (Longueur du premier vecteur), le nombre d'éléments dans le premier vecteur ou tableau valide trouvé dans la colonne détermine le nombre de colonnes de sortie créées. Tous les autres vecteurs d'entrée avec trop d'éléments sont tronqués. Les entrées avec trop peu d'éléments sont remplies de valeurs NaN.

    Vous spécifiez également un Output prefix (Préfixe de sortie), qui est utilisé comme préfixe pour chaque colonne de sortie.

Process Numeric (Traitement numérique)

Utilisez le groupe de fonctions Process Numeric (Traitement numérique) pour traiter les données numériques. Chaque scalaire de ce groupe est défini à l'aide de la bibliothèque Spark. Les scalaires suivants sont pris en charge :

  • Standard Scaler (Redimensionneur standard) : standardisez la colonne en entrée en soustrayant la moyenne de chaque valeur et en mettant à l'échelle la variance unitaire. Pour en savoir plus, veuillez consulter la rubrique StandardScaler de la documentation Spark.

  • Robust Scaler (Redimensionneur robuste) : mettez à l'échelle la colonne d'entrée à l'aide de statistiques robustes vers des valeurs aberrantes. Pour en savoir plus, veuillez consulter la rubrique RobustScaler de la documentation Spark.

  • Min Max Scaler (Redimensionneur Min Max) : transforme la colonne en entrée en mettant à l'échelle chaque entité à une plage donnée. Pour en savoir plus, veuillez consulter la rubrique MinMaxScaler de la documentation Spark.

  • Max Absolute Scaler (Redimensionneur absolu Max) : mettez à l'échelle la colonne d'entrée en divisant chaque valeur par la valeur absolue maximale. Pour en savoir plus, veuillez consulter la rubrique MaxAbsScaler de la documentation Spark.

Search and Edit (Rechercher et modifier)

Utilisez cette section pour rechercher et modifier des motifs spécifiques dans des chaînes. Par exemple, vous pouvez rechercher et mettre à jour des chaînes dans des phrases ou des documents, diviser des chaînes par des délimiteurs et rechercher des occurrences de chaînes spécifiques.

Les transformations suivantes sont prises en charge sous Search and edit (Rechercher et modifier). Toutes les transformations renvoient des copies des chaînes dans Input column (Colonne d'entrée) et ajoutent le résultat à une nouvelle colonne de sortie.

Nom Fonction

Find substring

Renvoie l'index de la première occurrence de la sous-chaîne que vous avez recherchée, en commençant et en terminant la recherche au début et à la fin, respectivement.

Find substring (from right)

Renvoie l'index de la dernière occurrence de la sous-chaîne que vous avez recherchée, en commençant et en terminant la recherche au début et à la fin, respectivement.

Matches prefix

Renvoie une valeur de type booléenne si la chaîne contient un modèle donné. Un modèle peut être une séquence de caractères ou une expression régulière. En option, vous pouvez rendre le modèle sensible à la casse.

Find all occurrences

Renvoie un tableau avec toutes les occurrences d'un modèle donné. Un modèle peut être une séquence de caractères ou une expression régulière.

Extract using regex

Renvoie une chaîne qui correspond à un modèle Regex donné.

Extract between delimiters

Renvoie une chaîne avec tous les caractères trouvés entre le délimiteur de gauche et le délimiteur de droite.

Extract from position

Renvoie une chaîne, depuis la position de départ dans la chaîne d'entrée, qui contient tous les caractères jusqu'à la position de départ plus la longueur.

Find and replace substring

Renvoie une chaîne dont toutes les correspondances d'un modèle (une expression régulière) sont remplacées par une chaîne de remplacement.

Replace between delimiters

Renvoie une chaîne dont la sous-chaîne trouvée entre la première occurrence d'un délimiteur de gauche et la dernière occurrence d'un délimiteur de droite est remplacée par une chaîne de remplacement. Si aucune correspondance n'est trouvée, rien n'est remplacé.

Replace from position

Renvoie une chaîne dont la sous-chaîne située entre la position de départ et la position de départ plus la longueur est remplacée par une chaîne de remplacement. Si la position de départ plus la longueur est supérieure à la longueur de la chaîne de remplacement, la sortie contient ....

Convert regex to missing

Convertit une chaîne en None si elle est invalide et renvoie le résultat. La validité est définie avec une expression régulière dans le modèle.

Split string by delimiter

Renvoie un tableau de chaînes à partir de la chaîne d'entrée, divisé par le délimiteur, avec un nombre maximal de fractionnements (facultatif). Le délimiteur est par défaut l'espace.

Parse Value as Type (Analyser la valeur en tant que type)

Utilisez cette transformation pour convertir une colonne en nouveau type. Les types de données Data Wrangler pris en charge sont :

  • Long

  • Float

  • Booléenne

  • Date, au format jj-mm-aaaa, représentant respectivement le jour, le mois et l'année.

  • Chaîne

Validate string (Valider la chaîne)

Utilisez la transformation Validate string (Valider la chaîne) pour créer une colonne indiquant qu'une ligne de données textuelles répond à une condition spécifiée. Par exemple, vous pouvez utiliser Validate string (Valider la chaîne) pour vérifier qu'une chaîne ne contient que des caractères minuscules. Les transformations suivantes sont prises en charge sous Validate string (Valider la chaîne).

Les transformations suivantes sont incluses dans ce groupe de transformation. Si une transformation génère une valeur booléenne, True est représenté par un 1 et False est représenté par un 0.

Nom Fonction

Longueur de chaîne

Renvoie True si une longueur de chaîne est égale à la longueur spécifiée. Sinon, la valeur renvoyée est False.

Commence par

Renvoie True si une chaîne démarre avec un préfixe spécifié. Sinon, la valeur renvoyée est False.

se termine par

Renvoie True si une longueur de chaîne est égale à la longueur spécifiée. Sinon, la valeur renvoyée est False.

Is alphanumeric

Renvoie True si une chaîne ne contient que des chiffres et des lettres. Sinon, la valeur renvoyée est False.

Is alpha (letters)

Renvoie True si une chaîne ne contient que des lettres. Sinon, la valeur renvoyée est False.

Is digit

Renvoie True si une chaîne ne contient que des chiffres. Sinon, la valeur renvoyée est False.

Is space

Renvoie True si une chaîne ne contient que des chiffres et des lettres. Sinon, la valeur renvoyée est False.

Is title

Renvoie True si une chaîne contient des espaces blancs. Sinon, la valeur renvoyée est False.

Is lowercase

Renvoie True si une chaîne ne contient que des lettres minuscules. Sinon, la valeur renvoyée est False.

Is uppercase

Renvoie True si une chaîne ne contient que des lettres majuscules. Sinon, la valeur renvoyée est False.

Is numeric

Renvoie True si une chaîne ne contient que des nombres. Sinon, la valeur renvoyée est False.

Is decimal

Renvoie True si une chaîne ne contient que des nombres décimaux. Sinon, la valeur renvoyée est False.