Générez des rapports sur les biais dans les données de pré-entraînement dans Studio SageMaker - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Générez des rapports sur les biais dans les données de pré-entraînement dans Studio SageMaker

SageMaker Clarify est intégré à Amazon SageMaker Data Wrangler, qui peut vous aider à identifier les biais lors de la préparation des données sans avoir à écrire votre propre code. Data Wrangler fournit une end-to-end solution pour importer, préparer, transformer, présenter et analyser des données avec Amazon Studio. SageMaker Pour de plus amples informations sur le flux de préparation des données Data Wrangler, veuillez consulter Préparez les données ML avec Amazon SageMaker Data Wrangler.

Vous spécifiez des attributs intéressants, tels que le sexe ou l'âge, et SageMaker Clarify exécute un ensemble d'algorithmes pour détecter la présence de biais dans ces attributs. Une fois l'algorithme exécuté, SageMaker Clarify fournit un rapport visuel avec une description des sources et de la gravité des biais possibles afin que vous puissiez planifier des mesures pour les atténuer. Par exemple, dans un ensemble de données financières qui contient quelques exemples de prêts commerciaux accordés à un groupe d'âge par rapport à d'autres, SageMaker signale le déséquilibre afin d'éviter un modèle qui défavorise ce groupe d'âge.

Analyser et rapporter les biais de données

Pour démarrer avec Data Wrangler, veuillez consulter Démarrer avec Data Wrangler.

  1. Dans Amazon SageMaker Studio Classic, dans le menu Accueil ( 
                        The Home icon.
                    ) du panneau de gauche, accédez au nœud Data, puis choisissez Data Wrangler. Cela ouvre la page d'accueil de Data Wrangler dans Studio Classic.

  2. Cliquez sur le bouton + Import data (+ Importer des données) pour créer un nouveau flux.

  3. Sur la page de votre flux, dans l'onglet Import (Importer), choisissez Amazon S3, accédez à votre compartiment Amazon S3, recherchez votre jeu de données, puis choisissez Import (Importer).

  4. Après avoir importé vos données, sur le graphe de flux de l'onglet Data flow (Flux de données), choisissez le signe + à droite du nœud Data types (Types de données).

  5. Choisissez Add analysis (Ajouter une analyse).

  6. Sur la page Create Analysis (Créer une analyse), choisissez Bias Report (Rapport de biais) pour Analysis type (Type d'analyse).

  7. Configurez le rapport de biais en indiquant un nom (Name) pour le rapport, la colonne à prédire et s'il s'agit d'une valeur ou d'un seuil, la colonne à analyser pour le biais (la facette) et s'il s'agit d'une valeur ou d'un seuil.

  8. Continuez à configurer le rapport de biais en choisissant les métriques de biais.

    
                        Choisissez la métrique de biais.
  9. Choisissez Check for bias (Vérifier la présence de biais)pour générer et afficher le rapport de biais. Faites défiler la page vers le bas pour afficher tous les rapports.

    
                        Générez et affichez le rapport de biais.
  10. Choisissez le signe « supérieur à » situé à droite de chaque description de la métrique de biais pour afficher la documentation vous permettant d'interpréter la signification des valeurs de métrique.

  11. Pour afficher un tableau récapitulatif des valeurs de métrique de biais. Sélectionnez l'option Table (Tableau). Pour enregistrer le rapport, choisissez Save (Enregistrer) dans le coin inférieur droit de la page. Vous pouvez voir le rapport sur le diagramme de flux dans l'onglet Data flow (Flux de données). Cliquez deux fois sur le rapport pour l'ouvrir.