Rechercher et remplir les valeurs manquantes dans un jeu de données - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Rechercher et remplir les valeurs manquantes dans un jeu de données

Vous pouvez utiliser la transformation FillMissingValues pour localiser les enregistrements dans le jeu de données dont les valeurs sont manquantes et ajouter un nouveau champ avec une valeur déterminée par imputation. Le jeu de données source est utilisé pour entraîner le modèle de machine learning (ML) qui détermine la valeur manquante. Si vous utilisez des jeux de données incrémentiels, chacun d'entre eux est utilisé comme données d'entraînement pour le modèle ML, de sorte que les résultats peuvent ne pas être aussi précis.

Pour utiliser un nœud de transformation FillMissingValues dans votre diagramme de tâche
  1. (Facultatif) Ouvrez le panneau Ressources, puis choisissez FillMissingValues pour ajouter une nouvelle transformation à votre diagramme de tâches, si nécessaire.

  2. Sur la page Node properties (Propriétés de nœud) au cours de la tâche, saisissez un nom pour le nœud dans le diagramme de tâche. Si aucun parent de nœud n'est déjà sélectionné, choisissez un nœud dans la liste de Node parents (Parents de nœud) à utiliser comme source pour la transformation.

  3. Choisissez l'onglet Transformation.

  4. Pour Data field (Champ de données), choisissez le nom de la colonne ou du champ dans les données source que vous souhaitez analyser pour les valeurs manquantes.

  5. (Facultatif) Dans la section New field name (Nouveau nom de champ), saisissez un nom pour le champ ajouté à chaque enregistrement qui contiendra la valeur de remplacement estimée du champ analysé. Si le champ analysé n'a pas de valeur manquante, la valeur du champ analysé est copiée dans le nouveau champ.

    Si vous ne spécifiez pas de nom pour le nouveau champ, le nom par défaut est le nom de la colonne analysée, auquel est ajouté _filled. Par exemple, si vous entrez Age pour Data field (Champ de données) et ne spécifiez pas de valeur pour New field name (Nouveau nom de champ), un nouveau champ nommé Age_filled est ajouté à chaque enregistrement.

  6. (Facultatif) Après avoir configuré les propriétés du nœud de transformation, vous pouvez afficher le schéma modifié pour vos données en sélectionnant l'onglet Output Schema (Schéma de sortie) dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un rôle IAM pour accéder aux données. Si vous n'avez pas spécifié de rôle IAM dans le Job détails (Détails de la tâche), vous y êtes invité à ce stade.

  7. (Facultatif) Après avoir configuré les propriétés du nœud et les propriétés de transformation, vous pouvez prévisualiser le jeu de données modifié en sélectionnant l'onglet Prévisualisation des données dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un rôle IAM pour accéder aux données. Il y a un coût associé à l'utilisation de cette fonction, et la facturation commence dès que vous fournissez le rôle IAM.