Utilisez un widget interactif de préparation des données dans un bloc-notes Amazon SageMaker Studio Classic pour obtenir des informations sur les données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisez un widget interactif de préparation des données dans un bloc-notes Amazon SageMaker Studio Classic pour obtenir des informations sur les données

Utilisez le widget de préparation des données Data Wrangler pour interagir avec vos données, obtenir des visualisations, explorer des informations exploitables et résoudre les problèmes de qualité des données.

Vous pouvez accéder au widget de préparation des données depuis un bloc-notes Amazon SageMaker Studio Classic. Pour chaque colonne, le widget crée une visualisation qui vous permet de mieux comprendre sa distribution. Si une colonne présente des problèmes de qualité des données, un avertissement apparaît dans son en-tête.

Pour voir les problèmes de qualité des données, sélectionnez l'en-tête de colonne affichant l'avertissement. Vous pouvez utiliser les informations que vous obtenez à partir des informations et des visualisations pour appliquer les transformations intégrées au widget afin de vous aider à résoudre les problèmes.

Par exemple, le widget peut détecter que vous avez une colonne qui ne comporte qu'une valeur unique et afficher un avertissement. L'avertissement fournit la possibilité de supprimer la colonne du jeu de données.

Premiers pas avec le widget

Utilisez les informations suivantes pour vous aider à commencer à utiliser un bloc-notes.

Ouvrez un bloc-notes dans Amazon SageMaker Studio Classic. Pour plus d'informations sur l'ouverture d'un bloc-notes, veuillez consulter Création ou ouverture d'un bloc-notes Amazon SageMaker Studio Classic.

Important

Pour exécuter le widget, le bloc-notes doit utiliser l'une des images suivantes :

  • Python 3 (Data Science) avec Python 3.7

  • Python 3 (Data Science 2.0) avec Python 3.8

  • Python 3 (Data Science 3.0) avec Python 3.10

  • SparkAnalytics 1,0

  • SparkAnalytics 2,0

Pour plus d'informations sur les images, veuillez consulter SageMaker Images Amazon disponibles pour utilisation avec Studio Classic.

Utilisez le code suivant pour importer le widget de préparation des données et les pandas. Le widget utilise des trames de données pandas pour analyser vos données.

import pandas as pd import sagemaker_datawrangler

L'exemple de code suivant charge un fichier dans la trame de données nommée df.

df = pd.read_csv("example-dataset.csv")

Vous pouvez utiliser un jeu de données dans n'importe quel format que vous pouvez charger en tant qu'objet de trame de données pandas. Pour plus d'informations sur les formats pandas, veuillez consulter Outils IO (texte, CSV, HDF5...).

La cellule suivante exécute la variable df pour démarrer le widget.

df

La partie supérieure de la trame de données comporte les options suivantes :

  • Afficher le tableau des pandas : bascule entre la visualisation interactive et le tableau des pandas.

  • Utilisez toutes les lignes de votre jeu de données pour calculer les informations. L'utilisation de l'ensemble du jeu de données peut augmenter le temps nécessaire pour générer les informations. - Si vous ne sélectionnez pas cette option, Data Wrangler calcule les informations relatives aux 10 000 premières lignes du jeu de données.

La trame de données montre les 1 000 premières lignes du jeu de données. Chaque en-tête de colonne comporte un diagramme à barres empilées qui montre les caractéristiques de la colonne. Il indique la proportion de valeurs valides, de valeurs non valides et de valeurs manquantes. Vous pouvez passer la souris sur les différentes parties du diagramme à barres empilées pour obtenir les pourcentages calculés.

Chaque colonne comporte une visualisation dans l'en-tête. Vous trouverez ci-dessous les types de visualisations que les colonnes peuvent avoir :

  • Catégoriel - Diagramme à barres

  • Numérique - Histogramme

  • Date/heure - Diagramme à barres

  • Texte - Diagramme à barres

Pour chaque visualisation, le widget de préparation des données met en évidence les valeurs aberrantes en orange.

Lorsque vous choisissez une colonne, un panneau latéral s'ouvre. Le panneau latéral affiche l'onglet Insights (Informations). Le volet fournit le décompte des types de valeurs suivants :

  • Valeurs non valides : valeurs dont le type ne correspond pas au type de colonne.

  • Valeurs manquantes : valeurs qui sont manquantes, telles que NaN ou None.

  • Valeurs valides : valeurs qui ne sont ni manquantes, ni non valides.

Pour les colonnes numériques, l'onglet Insights (Informations) affiche les statistiques récapitulatives suivantes :

  • Minimum : valeur la plus faible.

  • Maximum : valeur la plus élevée.

  • Moyenne : moyenne des valeurs.

  • Mode : valeur qui apparaît le plus fréquemment.

  • Écart type : écart type des valeurs.

Pour les colonnes catégoriques, l'onglet Insights (Informations) affiche les statistiques récapitulatives suivantes :

  • Valeurs uniques : nombre de valeurs uniques dans la colonne.

  • Haut : valeur qui apparaît le plus fréquemment.

Les colonnes dont l'en-tête contient des icônes d'avertissement présentent des problèmes de qualité des données. Le choix d'une colonne ouvre un onglet Data quality (Qualité des données) que vous pouvez utiliser pour rechercher des transformations qui vous aideront à résoudre le problème. Un avertissement possède l'un des niveaux de gravité suivants :

  • Low (Faible) : problèmes qui peuvent ne pas affecter votre analyse, mais qu'il peut être utile de corriger.

  • Medium (Moyen) : problèmes susceptibles d'affecter votre analyse, mais dont la résolution n'est probablement pas critique.

  • High (Élevé) : problèmes graves que nous recommandons vivement de résoudre.

Note

Le widget trie la colonne pour afficher les valeurs présentant des problèmes de qualité des données en haut de la trame de données. Il met également en évidence les valeurs à l'origine des problèmes. La couleur du surlignage correspond au niveau de gravité.

Sous SUGGESTED TRANSFORMS (TRANSFORMATIONS SUGGÉRÉES), vous pouvez choisir une transformation pour résoudre le problème de qualité des données. Le widget peut proposer plusieurs transformations qui peuvent résoudre le problème. Il peut proposer des recommandations pour apporter les transformations les mieux adaptées au problème. Vous pouvez déplacer le curseur sur la transformation pour obtenir plus d'informations à son sujet.

Pour appliquer une transformation au jeu de données, choisissez Apply and export code (Appliquer et exporter le code). La transformation modifie le jeu de données et met à jour la visualisation avec les valeurs modifiées. Le code de la transformation apparaît dans la cellule suivante du bloc-notes. Si vous appliquez des transformations supplémentaires au jeu de données, le widget ajoute les transformations à la cellule. Vous pouvez utiliser le code généré par le widget pour effectuer les opérations suivantes :

  • Personnalisez-le pour mieux répondre à vos besoins.

  • Utilisez-le dans vos propres flux de travail.

Vous pouvez reproduire toutes les transformations que vous avez effectuées en exécutant à nouveau toutes les cellules du bloc-notes.

Le widget peut fournir des informations et des avertissements pour la colonne cible. La colonne cible est la colonne que vous essayez de prédire. Utilisez la procédure suivante pour obtenir des informations sur les colonnes cibles.

Pour obtenir des informations sur les colonnes cibles, procédez comme suit.

  1. Choisissez la colonne que vous utilisez comme colonne cible.

  2. Choisissez Select as target column (Sélectionner comme colonne cible).

  3. Choisissez le type de problème. Les informations et les avertissements du widget sont adaptés aux types de problèmes. Les types de problème sont les suivants :

    • Classification : la colonne cible contient des données catégorielles.

    • Régression : la colonne cible contient des données numériques.

  4. Cliquez sur Exécuter.

  5. (Facultatif) Sous Target Column Insights (Informations de la colonne cible), choisissez l'une des transformations suggérées.

Référence pour les informations et les transformations du widget

Pour les colonnes fonctions (colonnes qui ne sont pas la colonne cible), vous pouvez obtenir les informations suivantes qui vous avertissent des problèmes liés à votre jeu de données.

  • Missing values (Valeurs manquantes) - La colonne contient des valeurs manquantes telles que None, NaN (pas un nombre) ou NaT (pas un horodatage). De nombreux algorithmes de machine learning ne prennent pas en charge les valeurs manquantes dans les données d'entrée. Les remplir ou supprimer les lignes contenant des données manquantes est donc une étape cruciale de la préparation des données. Si l'avertissement de valeurs manquantes s'affiche, vous pouvez utiliser l'une des transformations suivantes pour corriger le problème.

    • Drop missing (Supprimer les valeurs manquantes) : supprime les lignes contenant des valeurs manquantes. Nous vous recommandons de supprimer des lignes lorsque le pourcentage de lignes contenant des données manquantes est faible et qu'il n'est pas approprié d'imputer les valeurs manquantes.

    • Replace with new value (Remplacer par une nouvelle valeur) : remplace les valeurs textuelles manquantes par Other. Vous pouvez remplacer Other par une valeur différente dans le code de sortie. Remplace les valeurs numériques manquantes par 0.

    • Replace with mean (Remplacer par la moyenne) : remplace les valeurs manquantes par la moyenne de la colonne.

    • Replace with median (Remplacer par la médiane) : remplace les valeurs manquantes par la médiane de la colonne.

    • Drop column (Supprimer la colonne) : supprime la colonne contenant des valeurs manquantes dans le jeu de données. Nous vous recommandons de supprimer toute la colonne lorsque le pourcentage de lignes contenant des données manquantes est élevé.

  • Disguised missing values (Valeurs manquantes déguisées) : la colonne contient des valeurs manquantes déguisées. Une valeur manquante déguisée est une valeur qui n'est pas explicitement codée en tant que valeur manquante. Par exemple, au lieu d'utiliser un NaN pour indiquer une valeur manquante, la valeur pourrait être Placeholder. Vous pouvez utiliser l'une des transformations suivantes pour gérer les valeurs manquantes :

    • Drop missing (Supprimer les valeurs manquantes) : supprime les lignes contenant des valeurs manquantes.

    • Replace with new value (Remplacer par une nouvelle valeur) : remplace les valeurs textuelles manquantes par Other. Vous pouvez remplacer Other par une valeur différente dans le code de sortie. Remplace les valeurs numériques manquantes par 0.

  • Constant column (Colonne constante) : la colonne ne comporte qu'une seule valeur. Elle n'a donc aucun pouvoir prédictif. Nous vous recommandons vivement d'utiliser la transformation Drop column (Supprimer la colonne) pour supprimer la colonne du jeu de données.

  • ID column (Colonne ID) : la colonne ne contient aucune valeur répétitive. Toutes les valeurs de la colonne sont uniques. Il peut s'agir d'identifiants ou de clés de base de données. Sans informations supplémentaires, la colonne n'a aucun pouvoir prédictif. Nous vous recommandons vivement d'utiliser la transformation Drop column (Supprimer la colonne) pour supprimer la colonne du jeu de données.

  • High cardinality (Cardinalité élevée) : la colonne contient un pourcentage élevé de valeurs uniques. Une cardinalité élevée limite le pouvoir prédictif des colonnes catégorielles. Examinez l'importance de la colonne dans votre analyse et envisagez d'utiliser la transformation Drop column (Supprimer la colonne) pour la supprimer.

Pour la colonne cible, vous pouvez obtenir les informations suivantes qui vous avertissent des problèmes liés à votre jeu de données. Vous pouvez utiliser la transformation suggérée fournie avec l'avertissement pour corriger le problème.

  • Mixed data types in target (Regression) (Types de données mixtes dans la cible (régression)) : la colonne cible contient des valeurs non numériques. Il se peut qu'il y ait des erreurs dans la saisie de données. Nous vous recommandons de supprimer les lignes dont les valeurs ne peuvent pas être converties.

  • Frequent label (Libellé fréquent) : certaines valeurs de la colonne cible apparaissent plus fréquemment que la normale dans le contexte d'une régression. Une erreur est peut-être survenue lors de la collecte ou du traitement des données. Une catégorie qui apparaît fréquemment peut indiquer que la valeur est utilisée comme valeur par défaut ou qu'il s'agit d'un espace réservé pour les valeurs manquantes. Nous vous recommandons d'utiliser la transformation Replace with new value (Remplacer par une nouvelle valeur) pour remplacer les valeurs manquantes par Other.

  • Too few instances per class (Trop peu d'instances par classe) : la colonne cible contient des catégories qui apparaissent rarement. Certaines catégories ne comportent pas suffisamment de lignes pour que la colonne cible soit utile. Vous pouvez utiliser l'une des transformations suivantes :

    • Drop rare target (Supprimer une cible rare) : supprime les valeurs uniques avec moins de dix observations. Par exemple, supprime la valeur cat si elle apparaît neuf fois dans la colonne.

    • Replace rare target (Remplacer la cible rare) : remplace les catégories qui apparaissent rarement dans le jeu de données par la valeur Other.

  • Classes too imbalanced (multi-class classification) (Classes trop déséquilibrées (classification multiclasse)) : certaines catégories du jeu de données apparaissent beaucoup plus fréquemment que les autres catégories. Le déséquilibre des classes peut affecter la précision des prévisions. Pour obtenir les prévisions les plus précises possibles, nous vous recommandons de mettre à jour le jeu de données avec des lignes contenant les catégories qui apparaissent actuellement moins fréquemment.

  • Large amount of classes/too many classes (Grand nombre de classes/trop de classes) : la colonne cible contient un grand nombre de classes. Le fait d'avoir de nombreuses classes peut entraîner des temps de formation plus longs ou une mauvaise qualité prédictive. Nous vous recommandons d'effectuer l'une des actions suivantes :

    • Regrouper certaines catégories dans leur propre catégorie. Par exemple, si six catégories sont étroitement liées, nous vous recommandons d'utiliser une seule catégorie pour elles.

    • Utilisation d'un algorithme de machine learning résilient dans plusieurs catégories.