Schéma des contraintes (fichier constraints.json)

Un fichier constraints.json est utilisé pour exprimer les contraintes qu'un jeu de données doit satisfaire. Les conteneurs Amazon SageMaker Model Monitor peuvent utiliser le fichier constraints.json pour évaluer les ensembles de données par rapport à ceux-ci. Les conteneurs préconçus permettent de générer automatiquement le fichier constraints.json pour un jeu de données de référence. Si vous apportez votre propre conteneur, vous pouvez lui attribuer des capacités similaires ou vous pouvez créer le fichier constraints.json d'une autre manière. Voici le schéma du fichier de contraintes utilisé par le conteneur préconçu. Les conteneurs personnalisés peuvent adopter le même format ou vous pouvez l'améliorer au besoin.


{
    "version": 0,
    "features":
    [
        {
            "name": "string",
            "inferred_type": "Integral" | "Fractional" | 
                    | "String" | "Unknown",
            "completeness": number,
            "num_constraints":
            {
                "is_non_negative": boolean
            },
            "string_constraints":
            {
                "domains":
                [
                    "list of",
                    "observed values",
                    "for small cardinality"
                ]
            },
            "monitoringConfigOverrides":
            {}
        }
    ],
    "monitoring_config":
    {
        "evaluate_constraints": "Enabled",
        "emit_metrics": "Enabled",
        "datatype_check_threshold": 0.1,
        "domain_content_threshold": 0.1,
        "distribution_constraints":
        {
            "perform_comparison": "Enabled",
            "comparison_threshold": 0.1,
            "comparison_method": "Simple"||"Robust",
            "categorical_comparison_threshold": 0.1,
            "categorical_drift_method": "LInfinity"||"ChiSquared"
        }
    }
}

L'objet monitoring_config contient des options pour surveiller la tâche pour la fonctionnalité. Le tableau suivant décrit chaque option.

Surveillance des contraintes

Contrainte Description

Contrainte	Description
`evaluate_constraints`	Avec la valeur `Enabled`, évalue si le jeu de données en cours d'analyse satisfait aux contraintes spécifiées dans le fichier constraints.json de référence. Valeurs valides : `Enabled` ou `Disabled` Par défaut : `Enabled`
`emit_metrics`	Quand`Enabled`, émet CloudWatch des métriques pour les données contenues dans le fichier. Valeurs valides : `Enabled` ou `Disabled` Par défaut : `Enabled`
`datatype_check_threshold`	Si le seuil est supérieur à la valeur `datatype_check_threshold` spécifiée, cela provoque un échec qui est traité comme une violation dans le rapport des violations. Si les types de données de l'exécution en cours ne sont pas les mêmes que dans le jeu de données de référence, ce seuil est utilisé pour évaluer si cela doit être signalé comme une violation. Au cours de l'étape de la référence, les contraintes générées suggèrent le type de données déduit pour chaque colonne. Le paramètre `datatype_check_threshold` peut être réglé pour ajuster le seuil lorsqu'il est signalé comme une violation. Valeurs valides : float Par défaut: 0.1
`domain_content_threshold`	S'il existe plus de valeurs inconnues pour un champ de chaîne dans le jeu de données actif que dans le jeu de données de référence, ce seuil peut être utilisé pour déterminer si cela doit être signalé comme une violation. Valeurs valides : float Par défaut: 0.1
`distribution_constraints`	`perform_comparison` Avec la valeur `Enabled`, cet indicateur indique au code de comparer la distribution de référence à la distribution observée pour le jeu de données actif. Valeurs valides : `Enabled` ou `Disabled` Par défaut : `Enabled`
`comparison_threshold` Si le seuil est supérieur à la valeur définie pour `comparison_threshold`, cela provoque un échec qui est traité comme une violation dans le rapport des violations. La distance est calculée en obtenant la différence absolue maximale entre les fonctions de distribution cumulées de deux distributions. Valeurs valides : float Par défaut: 0.1
`comparison_method` Pour calculer `linf_simple` ou `linf_robust`. Le paramètre `linf_simple` repose sur la différence absolue maximale entre les fonctions de distribution cumulées de deux distributions. Le calcul de `linf_robust` est basé sur `linf_simple`, mais est utilisé lorsqu'il n'y a pas assez d'échantillons. La formule `linf_robust` est basée sur le test de Kolmogorov-Smirnov à deux échantillons. Valeurs valides : `linf_simple` ou `linf_robust`
`categorical_comparison_threshold` Facultatif. Définit un seuil pour les fonctionnalités catégorielles. Si la valeur du jeu de données dépasse le seuil que vous avez défini, une violation est enregistrée dans le rapport des violations. Valeurs valides : float Par défaut : valeur affectée au paramètre `comparison_threshold`
`categorical_drift_method` Facultatif. Pour les fonctionnalités catégorielles, spécifie la méthode de calcul utilisée pour détecter la dérive de distribution. Si vous ne définissez pas ce paramètre, le test K-S (LInfinity) est utilisé. Valeurs valides : `LInfinity` ou `ChiSquared` Par défaut : `LInfinity`

evaluate_constraints

Avec la valeur Enabled, évalue si le jeu de données en cours d'analyse satisfait aux contraintes spécifiées dans le fichier constraints.json de référence.

Valeurs valides : Enabled ou Disabled

Par défaut : Enabled

emit_metrics

QuandEnabled, émet CloudWatch des métriques pour les données contenues dans le fichier.

Valeurs valides : Enabled ou Disabled

Par défaut : Enabled

datatype_check_threshold

Si le seuil est supérieur à la valeur datatype_check_threshold spécifiée, cela provoque un échec qui est traité comme une violation dans le rapport des violations. Si les types de données de l'exécution en cours ne sont pas les mêmes que dans le jeu de données de référence, ce seuil est utilisé pour évaluer si cela doit être signalé comme une violation.

Au cours de l'étape de la référence, les contraintes générées suggèrent le type de données déduit pour chaque colonne. Le paramètre datatype_check_threshold peut être réglé pour ajuster le seuil lorsqu'il est signalé comme une violation.

Valeurs valides : float

Par défaut: 0.1

domain_content_threshold

S'il existe plus de valeurs inconnues pour un champ de chaîne dans le jeu de données actif que dans le jeu de données de référence, ce seuil peut être utilisé pour déterminer si cela doit être signalé comme une violation.

Valeurs valides : float

Par défaut: 0.1

distribution_constraints

perform_comparison

Avec la valeur Enabled, cet indicateur indique au code de comparer la distribution de référence à la distribution observée pour le jeu de données actif.

Valeurs valides : Enabled ou Disabled

Par défaut : Enabled

comparison_threshold

Si le seuil est supérieur à la valeur définie pour comparison_threshold, cela provoque un échec qui est traité comme une violation dans le rapport des violations. La distance est calculée en obtenant la différence absolue maximale entre les fonctions de distribution cumulées de deux distributions.

Valeurs valides : float

Par défaut: 0.1

comparison_method

Pour calculer linf_simple ou linf_robust. Le paramètre linf_simple repose sur la différence absolue maximale entre les fonctions de distribution cumulées de deux distributions. Le calcul de linf_robust est basé sur linf_simple, mais est utilisé lorsqu'il n'y a pas assez d'échantillons. La formule linf_robust est basée sur le test de Kolmogorov-Smirnov à deux échantillons.

Valeurs valides : linf_simple ou linf_robust

categorical_comparison_threshold

Facultatif. Définit un seuil pour les fonctionnalités catégorielles. Si la valeur du jeu de données dépasse le seuil que vous avez défini, une violation est enregistrée dans le rapport des violations.

Valeurs valides : float

Par défaut : valeur affectée au paramètre comparison_threshold

categorical_drift_method

Facultatif. Pour les fonctionnalités catégorielles, spécifie la méthode de calcul utilisée pour détecter la dérive de distribution. Si vous ne définissez pas ce paramètre, le test K-S (LInfinity) est utilisé.

Valeurs valides : LInfinity ou ChiSquared

Par défaut : LInfinity

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Statistiques

CloudWatch Métriques