约束的架构（constraints.json 文件）

聚焦模式

约束的架构（constraints.json 文件） - 亚马逊 SageMaker AI

constraints.json 文件用于表达数据集必须满足的约束条件。Amazon SageMaker 模型监控器容器可以使用 constraints.json 文件来评估数据集。利用预构建的容器，可以为基准数据集自动生成 constraints.json 文件。如果您创建了自己的容器，则可以为它提供类似的功能，也可以通过其他方式创建 constraints.json 文件。以下是预构建的容器使用的约束文件的架构。自带容器可以采用相同的格式或根据需要对其进行增强。


{
    "version": 0,
    "features":
    [
        {
            "name": "string",
            "inferred_type": "Integral" | "Fractional" | 
                    | "String" | "Unknown",
            "completeness": number,
            "num_constraints":
            {
                "is_non_negative": boolean
            },
            "string_constraints":
            {
                "domains":
                [
                    "list of",
                    "observed values",
                    "for small cardinality"
                ]
            },
            "monitoringConfigOverrides":
            {}
        }
    ],
    "monitoring_config":
    {
        "evaluate_constraints": "Enabled",
        "emit_metrics": "Enabled",
        "datatype_check_threshold": 0.1,
        "domain_content_threshold": 0.1,
        "distribution_constraints":
        {
            "perform_comparison": "Enabled",
            "comparison_threshold": 0.1,
            "comparison_method": "Simple"||"Robust",
            "categorical_comparison_threshold": 0.1,
            "categorical_drift_method": "LInfinity"||"ChiSquared"
        }
    }
}

monitoring_config 对象包含用于该特征监控作业的选项。下表描述了每个选项。

监控约束

约束描述

约束	描述
`evaluate_constraints`	在为 `Enabled` 时，评估正在分析的当前数据集是否满足将 constraints.json 文件中指定的约束作为基准。有效值：`Enabled` 或 `Disabled` 默认值：`Enabled`
`emit_metrics`	何时`Enabled`，会发出文件中包含的数据的 CloudWatch 指标。有效值：`Enabled` 或 `Disabled` 默认值：`Enabled`
`datatype_check_threshold`	如果阈值高于指定的 `datatype_check_threshold` 的值，则会导致在违规情况报告中被视为违规情况的失败。如果当前执行中的数据类型与基准数据集中的数据类型不同，则此阈值用于评估是否需要将其标记为违规情况。在基准步骤中，生成的约束会为每个列建议推断的数据类型。可以调整 `datatype_check_threshold` 参数，以便调整标记为违规时的阈值。有效值：浮点值默认值：0.1
`domain_content_threshold`	如果当前数据集中的字符串字段的未知值多于基准数据集中的未知值，则此阈值可用于指定是否需要将其标记为违规情况。有效值：浮点值默认值：0.1
`distribution_constraints`	`perform_comparison` 为 `Enabled` 时，此标志指示代码在基准分布与当前数据集观察到的分布之间执行分布比较。有效值：`Enabled` 或 `Disabled` 默认值：`Enabled`
`comparison_threshold` 如果阈值高于为 `comparison_threshold` 设置的值，则会导致在违规情况报告中被视为违规情况的失败。通过获取两个分布的累积分布函数之间的最大绝对差来计算距离。有效值：浮点值默认值：0.1
`comparison_method` 是否计算 `linf_simple` 或 `linf_robust`。`linf_simple` 基于两个分布的累积分布函数之间的最大绝对差。计算 `linf_robust` 基于 `linf_simple`，但仅在样本不足时使用它。`linf_robust` 公式基于 Two-sample Kolmogorov–Smirnov 测试。有效值：`linf_simple` 或 `linf_robust`
`categorical_comparison_threshold` 可选。为分类特征设置阈值。如果数据集中的值超过您设置的阈值，则会在违规情况报告中记录一项违规行为。有效值：浮点值默认值：分配给 `comparison_threshold` 参数的值
`categorical_drift_method` 可选。对于分类特征，指定用于检测分布偏移的计算方法。如果未设置此参数，则使用 K-S (LInfinity) 检验。有效值：`LInfinity` 或 `ChiSquared` 默认值：`LInfinity`

evaluate_constraints

在为 Enabled 时，评估正在分析的当前数据集是否满足将 constraints.json 文件中指定的约束作为基准。

有效值：Enabled 或 Disabled

默认值：Enabled

emit_metrics

何时Enabled，会发出文件中包含的数据的 CloudWatch 指标。

有效值：Enabled 或 Disabled

默认值：Enabled

datatype_check_threshold

如果阈值高于指定的 datatype_check_threshold 的值，则会导致在违规情况报告中被视为违规情况的失败。如果当前执行中的数据类型与基准数据集中的数据类型不同，则此阈值用于评估是否需要将其标记为违规情况。

在基准步骤中，生成的约束会为每个列建议推断的数据类型。可以调整 datatype_check_threshold 参数，以便调整标记为违规时的阈值。

有效值：浮点值

默认值：0.1

domain_content_threshold

如果当前数据集中的字符串字段的未知值多于基准数据集中的未知值，则此阈值可用于指定是否需要将其标记为违规情况。

有效值：浮点值

默认值：0.1

distribution_constraints

perform_comparison

为 Enabled 时，此标志指示代码在基准分布与当前数据集观察到的分布之间执行分布比较。

有效值：Enabled 或 Disabled

默认值：Enabled

comparison_threshold

如果阈值高于为 comparison_threshold 设置的值，则会导致在违规情况报告中被视为违规情况的失败。通过获取两个分布的累积分布函数之间的最大绝对差来计算距离。

有效值：浮点值

默认值：0.1

comparison_method

是否计算 linf_simple 或 linf_robust。linf_simple 基于两个分布的累积分布函数之间的最大绝对差。计算 linf_robust 基于 linf_simple，但仅在样本不足时使用它。linf_robust 公式基于 Two-sample Kolmogorov–Smirnov 测试。

有效值：linf_simple 或 linf_robust

categorical_comparison_threshold

可选。为分类特征设置阈值。如果数据集中的值超过您设置的阈值，则会在违规情况报告中记录一项违规行为。

有效值：浮点值

默认值：分配给 comparison_threshold 参数的值

categorical_drift_method

可选。对于分类特征，指定用于检测分布偏移的计算方法。如果未设置此参数，则使用 K-S (LInfinity) 检验。

有效值：LInfinity 或 ChiSquared

默认值：LInfinity