Obtenir des informations sur les données et la qualité des données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Obtenir des informations sur les données et la qualité des données

Utilisez le Data Quality and Insights Report (Rapport d'informations et de qualité des données) pour effectuer une analyse des données que vous avez importées dans Data Wrangler. Nous vous recommandons de créer le rapport après avoir importé votre jeu de données. Vous pouvez utiliser le rapport pour vous aider à nettoyer et à traiter vos données. Il fournit des informations telles que le nombre de valeurs manquantes et le nombre de valeurs aberrantes. Si vous rencontrez des problèmes avec vos données, tels que des fuites ou des déséquilibres de cible, le rapport d'informations peut signaler ces problèmes.

Utilisez la procédure suivante pour créer un rapport d'informations et de qualité des données. Cela suppose que vous avez déjà importé un jeu de données dans votre flux Data Wrangler.

Pour créer un rapport d'informations et de qualité des données
  1. Choisissez + à côté d'un nœud dans votre flux Data Wrangler.

  2. Sélectionnez Obtenir des informations sur les données.

  3. Dans le champ Nom de l'analyse, spécifiez le nom du rapport d'informations.

  4. (Facultatif) Pour Colonne cible, spécifiez la colonne cible.

  5. Pour Type de problème, spécifiez Régression ou Classification.

  6. Pour Taille des données, spécifiez l'une des valeurs suivantes :

    • 50 000 : utilise les 50 000 premières lignes du jeu de données que vous avez importé pour créer le rapport.

    • Jeu de données complet : utilise le jeu de données que vous avez importé pour créer le rapport.

    Note

    La création d'un rapport sur la qualité des données et les informations sur l'ensemble de données utilise une tâche SageMaker de traitement Amazon. Une tâche de SageMaker traitement fournit les ressources informatiques supplémentaires nécessaires pour obtenir des informations sur toutes vos données. Pour plus d'informations sur SageMaker le traitement des tâches, consultezTraitement des données.

  7. Choisissez Créer.

Les rubriques suivantes présentent les sections du rapport :

Vous pouvez télécharger le rapport ou le consulter en ligne. Pour télécharger le rapport, cliquez sur le bouton de téléchargement situé dans l'angle supérieur droit de l'écran. L'image suivante illustre le bouton.

Récapitulatif

Le rapport d'informations comporte un bref résumé des données qui inclut des informations générales telles que les valeurs manquantes, les valeurs non valides, les types de fonctions, le nombre de valeurs aberrantes, etc. Il peut également inclure des avertissements de sévérité élevée qui indiquent des problèmes probables avec les données. Nous vous recommandons d'examiner les avertissements.

Voici un exemple de récapitulatif de rapport.

Colonne cible

Lorsque vous créez le rapport d'informations et de qualité des données, Data Wrangler vous permet de sélectionner une colonne cible. Une colonne cible est une colonne que vous essayez de prédire. Lorsque vous choisissez une colonne cible, Data Wrangler crée automatiquement une analyse de colonne cible. Il classe également les fonctions par ordre de pouvoir prédictif. Lorsque vous sélectionnez une colonne cible, vous devez spécifier si vous tentez de résoudre un problème de régression ou de classification.

Pour la classification, Data Wrangler affiche une table et un histogramme des classes les plus courantes. Une classe est une catégorie. Il présente également des observations, ou des lignes, dont la valeur cible est manquante ou non valide.

L'image suivante illustre un exemple d'analyse de colonne cible pour un problème de classification.

Pour la régression, Data Wrangler affiche un histogramme de toutes les valeurs de la colonne cible. Il présente également des observations, ou des lignes, dont la valeur cible est manquante, non valide ou aberrante.

L'image suivante illustre un exemple d'analyse de colonne cible pour un problème de régression.

Modèle rapide

Le Quick model (modèle rapide) fournit une estimation de la qualité prédite attendue d'un modèle que vous entraînez sur vos données.

Data Wrangler fractionne vos données en blocs d'entraînement et de validation. Il utilise 80 % des échantillons pour l'entraînement et 20 % des valeurs pour la validation. Pour la classification, l'échantillon est un fractionnement stratifié. Pour un fractionnement stratifié, chaque partition de données a le même rapport d'étiquettes. Pour les problèmes de classification, il est important d'avoir le même rapport d'étiquettes entre les blocs d'entraînement et de classification. Data Wrangler entraîne le modèle XGBoost avec les hyperparamètres par défaut. Il applique un arrêt anticipé sur les données de validation et effectue un prétraitement minimal des caractéristiques.

Pour les modèles de classification, Data Wrangler renvoie à la fois un récapitulatif du modèle et une matrice de confusion.

Voici un exemple de récapitulatif de modèle de classification. Pour en savoir plus sur les informations renvoyées, consultez Définitions.

Voici un exemple de matrice de confusion renvoyée par le modèle rapide.

Une matrice de confusion fournit les informations suivantes :

  • Nombre de fois où l'étiquette prédite correspond à la vraie étiquette.

  • Nombre de fois où l'étiquette prédite ne correspondait pas à la vraie étiquette.

La vraie étiquette représente une observation réelle dans vos données. Par exemple, si vous utilisez un modèle pour détecter les transactions frauduleuses, la vraie étiquette représente une transaction réellement frauduleuse ou non frauduleuse. L'étiquette prédite représente l'étiquette que votre modèle attribue aux données.

Vous pouvez utiliser la matrice de confusion pour voir dans quelle mesure le modèle prédit la présence ou l'absence d'une condition. Si vous prédisez des transactions frauduleuses, vous pouvez utiliser la matrice de confusion pour vous faire une idée de la sensibilité et de la spécificité du modèle. La sensibilité fait référence à la capacité du modèle à détecter les transactions frauduleuses. La spécificité fait référence à la capacité du modèle à éviter de détecter les transactions non frauduleuses comme étant frauduleuses.

Voici un exemple de résultats du modèle rapide pour un problème de régression.

Récapitulatif des fonctions

Lorsque vous spécifiez une colonne cible, Data Wrangler classe les fonctions selon leur pouvoir de prédiction. Le pouvoir de prédiction est mesuré sur les données après leur division en bloc d'entraînement de 80 % et en bloc de validation de 20 %. Data Wrangler adapte un modèle à chaque fonction séparément sur le bloc d'entraînement. Il applique un prétraitement minimal des caractéristiques et mesure les performances de prédiction sur les données de validation.

Il normalise les scores dans la plage [0,1]. Les scores de prédiction élevés indiquent des colonnes plus utiles pour prédire la cible par elles-mêmes. Les scores inférieurs indiquent des colonnes qui ne sont pas prédictives de la colonne cible.

Il est rare qu'une colonne qui n'est pas prédictive en elle-même soit prédictive lorsqu'elle est utilisée conjointement avec d'autres colonnes. Vous pouvez utiliser les scores de prédiction en toute confiance pour déterminer si une fonction de votre jeu de données est prédictive.

Un score faible indique généralement que la fonction est redondante. Un score de 1 correspond à des capacités prédictives parfaites, ce qui indique souvent une fuite de cible. La fuite de cible se produit généralement lorsque le jeu de données contient une colonne qui n'est pas disponible au moment de la prédiction. Par exemple, il peut s'agir d'un double de la colonne cible.

Voici des exemples de la table et de l'histogramme qui montrent la valeur de prédiction de chaque caractéristique.

Exemples

Data Wrangler indique si vos échantillons sont anormaux ou si votre jeu de données contient des doublons.

Data Wrangler détecte les échantillons anormaux à l'aide de l'algorithme Isolation Forest (forêt d'isolation). La forêt d'isolation associe un score d'anomalie à chaque échantillon (ligne) du jeu de données. Les scores d'anomalie faibles indiquent des échantillons anormaux. Les scores élevés sont associés à des échantillons non anormaux. Les échantillons présentant un score d'anomalie négatif sont généralement considérés comme anormaux et les échantillons présentant un score d'anomalie positif sont considérés comme non anormaux.

Lorsque vous examinez un échantillon susceptible d'être anormal, nous vous recommandons de prêter attention aux valeurs inhabituelles. Par exemple, des valeurs anormales peuvent être issues d'erreurs qui se sont produites lors de la collecte et du traitement des données. Voici un exemple des échantillons les plus anormaux selon l'implémentation de l'algorithme « isolation forest » par Data Wrangler. Nous vous recommandons d'utiliser vos connaissances du domaine et la logique métier lorsque vous examinez les échantillons anormaux.

Data Wrangler détecte les lignes en double et calcule le rapport des doublons dans vos données. Certaines sources de données peuvent inclure des doublons valides. D'autres sources de données peuvent comporter des doublons indiquant des problèmes liés à la collecte de données. Les échantillons en double issus d'une collecte de données défectueuse peuvent interférer avec les processus de machine learning qui reposent sur le fractionnement des données en blocs d'entraînement et de validation indépendants.

Les éléments suivants sont issus du rapport d'informations et peuvent être affectés par les échantillons en double :

  • Modèle rapide

  • Estimation du pouvoir de prédiction

  • Réglage automatique des hyperparamètres

Vous pouvez retirer des échantillons en double du jeu de données à l'aide de la transformation Drop duplicates (Supprimer des doublons) sous Manage rows (Gérer les lignes). Data Wrangler affiche les lignes les plus fréquemment dupliquées.

Définitions

Les définitions suivantes s'appliquent à des termes techniques utilisés dans le rapport d'informations des données.

Feature types

Les définitions suivantes s'appliquent à chaque type de caractéristique :

  • Numérique – Les valeurs numériques peuvent être soit des valeurs flottantes, soit des entiers, tels que l'âge ou le revenu. Les modèles de machine learning supposent que les valeurs numériques sont ordonnées et qu'une distance est définie entre elles. Par exemple, 3 est plus proche de 4 que de 10 et 3 < 4 < 10.

  • Catégorielle – Les entrées de colonne appartiennent à un jeu de valeurs uniques, généralement beaucoup plus petit que le nombre d'entrées de la colonne. Par exemple, une colonne de longueur 100 peut contenir les valeurs uniques Dog, Cat et Mouse. Les valeurs peuvent être numériques, textuelles ou une combinaison des deux. Horse, House, 8, Love et 3.1 sont toutes des valeurs valides et peuvent figurer dans la même colonne catégorielle. Le modèle de Machine Learning ne suppose pas un ordre ni une distance sur les valeurs des caractéristiques catégorielles, contrairement aux caractéristiques numériques, même lorsque toutes les valeurs sont des nombres.

  • Binaire – Les caractéristiques binaires constituent un type de caractéristique catégorielle spécial pour lequel la cardinalité du jeu de valeurs uniques est égale à 2.

  • Textuelle – Une colonne textuelle contient de nombreuses valeurs uniques non numériques. Dans les cas extrêmes, tous les éléments de la colonne sont uniques. Dans un cas extrême, il n'y a pas deux entrées identiques.

  • Date/heure – Une colonne date/heure contient des informations sur la date ou l'heure. Elle peut contenir des informations sur la date et l'heure.

Feature statistics

Les définitions suivantes s'appliquent à chaque statistique de fonction :

  • Pouvoir de prédiction – Le pouvoir de prédiction mesure l'utilité de la colonne dans la prédiction de la cible.

  • Valeurs aberrantes (dans les colonnes numériques) – Data Wrangler détecte les valeurs aberrantes à l'aide de deux statistiques fiables : la médiane et l'écart type robuste (RSTD). Le RSTD est calculé en découpant les valeurs des fonctions dans la plage [5e percentile, 95e percentile] et en calculant l'écart type du vecteur découpé. Toutes les valeurs supérieures à la médiane + 5* RSTD ou inférieures à la médiane - 5 * RSTD sont considérées comme des valeurs aberrantes.

  • Inclinaison (dans les colonnes numériques) – L'inclinaison mesure la symétrie de la distribution. Elle est définie comme le troisième moment de la distribution divisé par l'écart type à la puissance trois. L'asymétrie de la distribution normale ou de toute autre distribution symétrique est nulle. Les valeurs positives impliquent que la queue droite de la distribution est plus longue que la queue gauche. Les valeurs négatives impliquent que la queue gauche de la distribution est plus longue que la queue droite. En règle générale, une distribution est considérée comme asymétrique lorsque la valeur absolue de l'inclinaison est supérieure à 3.

  • Coefficient d'aplatissement (dans les colonnes numériques) – Le coefficient d'aplatissement de Pearson mesure la lourdeur de la queue de la distribution. Il est défini comme le quatrième moment de la distribution divisé par le carré du deuxième moment. L'aplatissement de la distribution normale est de 3. Les valeurs d'aplatissement inférieures à 3 impliquent que la distribution est concentrée autour de la moyenne et que les queues sont plus légères que les queues de la distribution normale. Les valeurs d'aplatissement supérieures à 3 impliquent des queues plus lourdes ou des valeurs aberrantes.

  • Valeurs manquantes – Les objets de type null, les chaînes vides et les chaînes composées uniquement d'espaces blancs sont considérés comme manquants.

  • Valeurs valides pour les caractéristiques numériques ou la cible de régression – Toutes les valeurs que vous pouvez convertir en valeurs flottantes finies sont valides. Les valeurs manquantes ne sont pas valides.

  • Valeurs valides pour les caractéristiques catégorielles, binaires ou textuelles, ou pour la cible de classification – Toutes les valeurs qui ne sont pas manquantes sont valides.

  • Caractéristiques de date/heure – Toutes les valeurs que vous pouvez convertir en objet de date/heure sont valides. Les valeurs manquantes ne sont pas valides.

  • Valeurs non valides – Valeurs manquantes ou qui ne peuvent pas être converties correctement. Par exemple, dans une colonne numérique, vous ne pouvez pas convertir la chaîne "six" ou une valeur null.

Quick model metrics for regression

Voici les définitions des métriques du modèle rapide :

  • R2 (coefficient de détermination) : R2 est la proportion de la variation de la cible prédite par le modèle. R2 se situe dans la plage [-infty, 1]. 1 est le score du modèle qui prédit parfaitement la cible et 0 est le score du modèle simple qui prédit toujours la moyenne de la cible.

  • MSE (erreur quadratique moyenne) : MSE se situe dans la plage [0, infty]. 0 est le score du modèle qui prédit parfaitement la cible.

  • MAE (erreur absolue moyenne) – MAE se situe dans la plage [0, infty] où 0 est le score du modèle qui prédit parfaitement la cible.

  • RMSE (racine de l'erreur quadratique moyenne) – RMSE se situe dans la plage [0, infty] où 0 est le score du modèle qui prédit parfaitement la cible.

  • Erreur max. : valeur absolue maximale de l'erreur sur le jeu de données. L'erreur max. se situe dans la plage [0, infty]. 0 est le score du modèle qui prédit parfaitement la cible.

  • Erreur absolue médiane – Elle se situe dans la plage [0, infty]. 0 est le score du modèle qui prédit parfaitement la cible.

Quick model metrics for classification

Voici les définitions des métriques du modèle rapide :

  • Exactitude – L'exactitude est le rapport des échantillons prédits avec exactitude. L'exactitude est comprise dans la plage [0, 1]. 0 est le score du modèle qui prédit de façon erronée tous les échantillons et 1 est le score du modèle parfait.

  • Exactitude équilibrée – L'exactitude équilibrée est le rapport des échantillons prédits avec exactitude quand les pondérations de classe sont ajustés pour équilibrer les données. Toutes les classes ont la même importance, quelle que soit leur fréquence. L'exactitude équilibrée est comprise dans la plage [0, 1]. 0 est le score du modèle qui prédit que tous les échantillons sont erronés. 1 est le score du modèle parfait.

  • AUC (classification binaire) – Il s'agit de l'aire située sous la courbe caractéristique de fonctionnement du récepteur. L'AUC se situe dans la plage [0, 1] où un modèle aléatoire renvoie un score de 0,5 et le modèle parfait renvoie un score de 1.

  • AUC (OVR) – Pour la classification multi-classes, il s'agit de l'aire située sous la courbe caractéristique de fonctionnement du récepteur, calculée séparément pour chaque étiquette en utilisant la méthode « une par rapport au reste ». Data Wrangler indique la moyenne des zones. L'AUC se situe dans la plage [0, 1] où un modèle aléatoire renvoie un score de 0,5 et le modèle parfait renvoie un score de 1.

  • Précision – La précision est définie pour une classe spécifique. La précision est la fraction des vrais positifs sur toutes les instances que le modèle a classées comme cette classe. La précision est comprise dans la plage [0, 1]. 1 est le score du modèle qui n'a pas de faux positifs pour la classe. Pour la classification binaire, Data Wrangler indique la précision de la classe positive.

  • Rappel – Le rappel est défini pour une classe spécifique. Le rappel est la fraction des instances de classe pertinentes qui ont été récupérées avec succès. Le rappel est compris dans la plage [0, 1]. 1 est le score du modèle qui classe correctement toutes les instances de la classe. Pour la classification binaire, Data Wrangler indique le rappel de la classe positive.

  • F1 – F1 est défini pour une classe spécifique. Il s'agit de la moyenne harmonique de la précision et du rappel. F1 est compris dans la plage [0, 1]. 1 est le score du modèle parfait. Pour la classification binaire, Data Wrangler indique la F1 des classes comportant des valeurs positives.

Textual patterns

Les patterns (modèles) décrivent le format textuel d'une chaîne à l'aide d'un format facile à lire. Voici des exemples de modèles textuels :

  • « {digits:4-7} » décrit une séquence de chiffres dont la longueur est comprise entre 4 et 7.

  • « {alnum:5} » décrit une chaîne alphanumérique d'une longueur exacte de 5.

Data Wrangler déduit les modèles en examinant des échantillons de chaînes non vides à partir de vos données. Il peut décrire un grand nombre des modèles couramment utilisés. La confiance exprimée en pourcentage indique la quantité de données estimée correspondant au modèle. À l'aide du modèle textuel, vous pouvez voir quelles lignes de vos données vous devez corriger ou supprimer.

Voici les modèles que Data Wrangler peut reconnaître :

Modèle Format de texte

{alnum}

Chaînes alphanumériques

{any}

Toute chaîne de caractères textuels

{digits}

Une séquence de chiffres

{lower}

Un mot en minuscules

{mixed}

Un mot en minuscules et majuscules

{name}

Un mot commençant par une majuscule

{upper}

Un mot en majuscules

{whitespace}

Caractères d'espace blanc

Un caractère textuel est soit un trait de soulignement, soit un caractère pouvant figurer dans un mot d'une langue quelconque. Par exemple, les chaînes « Hello_word » et « écoute » sont toutes deux composées de caractères textuels. « H » et « é » sont deux exemples de caractères textuels.