Création d'une référence

Les calculs de référence des statistiques et des contraintes sont nécessaires en tant que norme pour savoir quels problèmes d'écarts des données et autres problèmes de qualité peuvent être détectés. Model Monitor fournit un conteneur intégré capable de suggérer automatiquement les contraintes pour les entrées CSV et JSON plat. Ce sagemaker-model-monitor-analyzerconteneur vous fournit également une gamme de fonctionnalités de surveillance des modèles, notamment la validation des contraintes par rapport à une référence et l'émission de CloudWatch métriques Amazon. Ce conteneur est basé sur Spark version 3.3.0 et est construit avec Deequ version 2.0.2. Tous les noms de colonnes de votre jeu de données de référence doivent être conformes à Spark. Pour les noms de colonnes, utilisez uniquement des minuscules et _ comme caractère spécial.

Le jeu de données d'entraînement utilisé pour entraîner le modèle est généralement un bon jeu de données de référence. Les schémas du jeu de données d'entraînement et de l'ensemble de données d'inférence doivent correspondre exactement (nombre et ordre des fonctions). Notez que les prediction/output colonnes sont supposées être les premières colonnes de l'ensemble de données d'apprentissage. À partir de l'ensemble de données d'entraînement, vous pouvez demander à l' SageMaker IA de suggérer un ensemble de contraintes de base et de générer des statistiques descriptives pour explorer les données. Pour cet exemple, chargez l'ensemble des données d'entraînement qui a servi à entraîner le modèle préentraîné inclus. Si vous avez déjà stocké le jeu de données d'entraînement dans Amazon S3, vous pouvez pointer directement dessus.

Pour créer une référence à partir d'un jeu de données d'entraînement

Lorsque vos données d'entraînement sont prêtes et stockées dans Amazon S3, lancez une tâche de traitement de base à DefaultModelMonitor.suggest_baseline(..) l'aide du SDK Amazon SageMaker Python. Un Conteneur préfabriqué Amazon SageMaker Model Monitor est alors utilisé afin de générer des statistiques de référence et de suggérer des contraintes de référence pour le jeu de données, puis de les écrire à l'emplacement output_s3_uri que vous spécifiez.


from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)

Note

Si vous indiquez les feature/column noms dans le jeu de données d'apprentissage en tant que première ligne et que vous définissez l'header=Trueoption comme indiqué dans l'exemple de code précédent, SageMaker AI utilise le nom de la fonctionnalité dans le fichier de contraintes et de statistiques.

Les statistiques de référence du jeu de données sont contenues dans le fichier statistics.json et les contraintes de référence suggérées sont contenues dans le fichier constraints.json à l'emplacement que vous spécifiez avec output_s3_uri.

Fichiers de sortie pour les statistiques et les contraintes du jeu de données tabulaires

Nom de fichier	Description
`statistics.json`	Ce fichier doit comporter des statistiques en colonnes pour chaque fonction du jeu de données analysé. Pour de plus amples informations sur le schéma de ce fichier, veuillez consulter Schéma des statistiques (fichier statistics.json).
`constraints.json`	Dans ce fichier, les contraintes sur les fonctions doivent être observées. Pour de plus amples informations sur le schéma de ce fichier, veuillez consulter Schéma des contraintes (fichier constraints.json).

Le SDK Amazon SageMaker Python fournit des fonctions pratiques décrites pour générer les statistiques et les contraintes de base. Si vous voulez toutefois appeler la tâche de traitement directement à cette fin, vous devez définir le mappage Environment comme dans l'exemple ci-après :


"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Qualité des données

Planification des tâches de surveillance de la qualité des données