Rapport d'exploration de données Amazon SageMaker Autopilot - Amazon SageMaker

Rapport d'exploration de données Amazon SageMaker Autopilot

Amazon SageMaker Autopilot nettoie et prétraite automatiquement votre jeu de données. La qualité élevée des données permet un machine learning plus efficace et produit des modèles dont les prédictions sont plus précises. Il existe des problèmes avec des jeux de données fournis par le client qui ne peuvent pas être résolus automatiquement sans une certaine connaissance du domaine. Par exemples, les valeurs aberrantes importantes dans la colonne cible pour les problèmes de régression peuvent entraîner des prédictions sous-optimales pour les valeurs non aberrantes. Certaines valeurs aberrantes doivent être supprimées selon l'objectif de modélisation. Si une colonne cible est incluse par accident comme l'une des ressources d'entrée, le modèle final sera bien validé, mais n'aura que peu de valeur pour les prédictions à venir. Pour aider les clients à détecter ce genre de problèmes, Autopilot fournit un rapport d'exploration de données qui contient des informations sur les problèmes potentiels liés à leurs données et formule des recommandations pour leur résolution.

Un bloc-notes d'exploration de données contenant le rapport est généré pour chaque tâche de Autopilot qui termine l'étape de recommandation de pipeline. Le rapport est stocké dans un compartiment S3 et est accessible depuis votre chemin de sortie. Le chemin du rapport d'exploration de données correspond généralement au schéma suivant :

[s3 output path]/[name of the automl job]/sagemaker-automl-candidates/[name of processing job used for data analysis]/notebooks/SageMakerAutopilotDataExplorationNotebook.ipynb

L'emplacement du bloc-notes d'exploration de données peut être obtenu à partir de l'API Autopilot à l'aide de la réponse d'opération DescribeAutoMLJob, stockée dans DataExplorationNotebookLocation.

Lorsque vous exécutez Autopilot à partir de SageMaker Studio, vous pouvez ouvrir le rapport d'exploration de données en ouvrant l'interface utilisateur qui décrit la tâche Autopilot, puis en sélectionnant Open data exploration notebook (Ouvrir le bloc-notes d'exploration de données) à partir de la page de description de la tâche Autopilot.


          Sélectionnez Open data exploration notebook (Ouvrir le bloc-notes d'exploration de données).

Le rapport d'exploration de données est généré à partir de vos données avant le début du processus d'entraînement. Cela vous permet d'arrêter les tâches Autopilot susceptibles d'entraîner des résultats inférieurs à la normale ou dénués de sens et de résoudre l'ensemble des problèmes ou améliorations de votre jeu de données avant de réexécuter Autopilot. Vous avez la possibilité d'exploiter votre savoir-faire dans votre domaine pour améliorer manuellement la qualité des données avant d'entraîner un modèle sur un jeu de données mieux organisé.

Le rapport de données généré ne contient qu'une syntaxe statique et peut être ouvert dans n'importe quel environnement Jupyter. Le bloc-notes contenant le rapport peut être converti en d'autres formats, tels que PDF ou HTML. Pour en savoir plus sur les conversions, veuillez consulter la section sur l'utilisation du script nbconvert pour convertir les blocs-notes Jupyter vers d'autres formats.

Récapitulatif du jeu de données

Ce récapitulatif du jeu de données fournit des statistiques clés caractérisant votre jeu de données. Il est destiné à vous fournir une alerte rapide en cas de problème avec votre jeu de données détecté par Amazon SageMaker Autopilot et susceptible de nécessiter votre intervention. Les informations sont présentées comme des avertissements classés par gravité « élevée » ou « faible » en fonction de la probabilité que le problème aura ou non un impact négatif sur la performance du modèle.

Les informations sur la gravité élevée et faible apparaissent dans le résumé sous forme de fenêtres contextuelles. Pour la plupart des informations, des recommandations sont proposées pour confirmer qu'il y a effectivement un problème avec le jeu de données qui nécessite votre attention et des propositions sont fournies pour la résolution.

Autopilot fournit d'autres statistiques sur les valeurs cibles manquantes ou non valides dans notre jeu de données pour vous aider à détecter d'autres problèmes qui peuvent ne pas être détectés par des informations de gravité élevée. En outre, un nombre inattendu de colonnes d'un certain type peut indiquer que certaines colonnes que vous souhaitez utiliser peuvent être manquantes dans le jeu de données ou qu'il y a eu un problème avec la préparation ou le stockage des données. La résolution de ces problèmes de données portés à votre attention par Autopilot peut améliorer les performances des modèles de machine learning entraînés sur vos données.


            Résumé du jeu de données du rapport Autopilot

Les informations de gravité élevée sont présentées dans la section récapitulative, ainsi que dans d'autres sections du rapport pertinentes. Des exemples d'informations de gravité élevée et faible sont généralement donnés en fonction de la section du rapport de données.

Analyse de la cible

Diverses informations de gravité élevée et faible sont présentées dans cette section concernant la distribution des valeurs dans la colonne cible. Il est important de s'assurer que les valeurs de la colonne cible sont correctes, car des valeurs incorrectes entraînent généralement un modèle de machine learning qui ne répond pas à l'objectif commercial prévu. Plusieurs informations de données de gravité élevée et faible figurent dans cette section. Voici quelques exemples que nous examinons ici.

  • Valeurs cibles aberrantes : distribution des cibles asymétriques ou inhabituelles pour la régression, comme les cibles à ailes lourdes.

  • Cardinalité de cible élevée ou faible : faible nombre d'étiquettes de classe ou nombre élevé de classes uniques pour la classification.

Pour les types de problèmes de régression et de classification, des valeurs non valides telles que l'infinité numérique, NaN ou un espace vide apparaissent dans la colonne cible. Selon le type de problème, différentes statistiques de jeux de données sont présentées. Une distribution de valeurs de colonne cible pour un problème de régression vous permet de vérifier facilement si la distribution correspond à ce que vous attendiez. Un exemple est illustré ci-dessous.


            Rapport de données Autopilot sur la distribution des valeurs des colonnes cibles.

Plusieurs statistiques sont affichées concernant les valeurs cibles et leur distribution. Si l'un des pourcentages aberrants, non valides ou manquants est supérieur à zéro, ces valeurs sont affichées afin que vous puissiez déterminer pourquoi vos données contiennent des valeurs cibles inutilisables. Certaines valeurs cibles non valides sont affichées dans un avertissement d'information de faible gravité. Dans l'exemple ci-dessous, le symbole ` a été ajouté par erreur à la colonne cible, ce qui a empêché l'analyse de la valeur numérique de la cible.


            Les données Autopilot transmettent un avertissement de faible gravité concernant des valeurs cibles non valides.

Pour vous aider à identifier les valeurs problématiques et certaines lignes affectées, Autopilot fournit des exemples de lignes contenant des valeurs cibles inutilisables ou aberrantes. La distribution des étiquettes pour les problèmes de classification est compilée et tracée pour que vous puissiez également l'examiner.


            Les données Autopilot signalent une cardinalité élevée pour la classification.
Note

Vous trouverez des définitions de tous les termes présentés dans cette section et dans d'autres sections dans la section Definitions (Définitions) au bas du bloc-notes du rapport.

Échantillon de données

Pour vous aider à identifier les problèmes liés à votre jeu de données, un échantillon réel de vos données est présenté pour que vous puissiez le faire inspecter par Amazon SageMaker Autopilot. La table d'échantillon défile horizontalement. Elle peut servir à vérifier que toutes les colonnes nécessaires sont présentes dans le jeu de données utilisé. Si des colonnes de données sont manquantes, il se peut qu'un problème de prétraitement soit survenu avant l'importation du jeu de données que vous devez examiner.

Une mesure de la puissance prédictive est calculée par Amazon SageMaker Autopilot et peut être utilisée pour identifier les colonnes cibles déguisées sous la forme de colonnes d'entrée, ainsi que pour vous concentrer sur les colonnes qui peuvent être importantes en raison de leur puissance de prédiction élevée. Pour en savoir plus sur la puissance de prédiction, veuillez consulter la section Définitions.

Note

Il n'est pas recommandé d'utiliser la puissance de prédiction comme substitut à l'importance des ressources, sauf si vous êtes sûr que la puissance de prédiction est une mesure appropriée à votre cas d'utilisation.


            Puissance de prédiction des échantillons de données du rapport Autopilot.

Lignes dupliquées.

Si des lignes dupliquées sont présentes dans le jeu de données, Amazon SageMaker Autopilot en affiche un échantillon.

Note

Il n'est pas recommandé d'équilibrer un jeu de données par sur-échantillonnage avant de le fournir à Autopilot. Cela peut entraîner des scores de validation inexacts pour les modèles entraînés par Autopilot, et les modèles produits peuvent être inutilisables.

Corrélations croisées de colonnes

La corrélation numérique des colonnes est également présentée à l'aide d'un graphique de matrice de corrélation croisée standard. Vous pouvez l'utiliser pour réduire le nombre de ressources dans le jeu de données. Un nombre réduit de ressources diminue les risques de surajustement d'un modèle et peut baisser les coûts de production de deux manières. Cela raccourcit le temps d'exécution d'Autopilot et, pour certaines applications, peut réduire le coût des procédures de collecte de données.

Note

Les valeurs proches de +1 et les valeurs proches de -1 indiquent que deux ressources sont fortement corrélées, positivement et négativement respectivement.


            Matrice de corrélation croisée des données du rapport Autopilot.

Lignes anormales

Amazon SageMaker Autopilot échantillonne les lignes de votre jeu de données pour détecter les lignes qui peuvent être anormales et attribue un score d'anomalie à chaque ligne. Les lignes présentant un score d'anomalie négatif sont considérées comme anormales.


            Puissance de prédiction des échantillons de données du rapport Autopilot.

Valeurs manquantes, cardinalité et statistiques descriptives

Amazon SageMaker Autopilot examine et présente des rapports sur les propriétés des données dans chaque colonne de votre jeu de données. Dans chaque section du rapport de données qui présente cette analyse, le contenu est organisé dans l'ordre, de sorte que vous puissiez vérifier les valeurs les plus « suspectes » en priorité. Ces statistiques vous permettent d'améliorer le contenu de chaque colonne et, par conséquent, d'améliorer davantage la qualité du modèle produit par Autopilot.

Autopilot calcule plusieurs statistiques sur les valeurs catégoriques des colonnes qui les contiennent. Celles-ci incluent notamment le nombre d'entrées uniques et, pour le texte, le nombre de mots uniques. Elles sont présentées dans un tableau pour que vous puissiez les inspecter.


            Les données Autopilot présentent les statistiques sur des colonnes avec des valeurs catégoriques.

Autopilot calcule plusieurs statistiques standard sur les valeurs numériques des colonnes qui les contiennent. Celles-ci incluent notamment les valeurs moyennes, médianes, minimales et maximales, ainsi que les pourcentages de types numériques et de valeurs aberrantes. Elles sont présentées dans un tableau pour que vous puissiez les inspecter.


            Les données Autopilot présentent les statistiques sur des colonnes avec des valeurs numériques.