本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
constraints.json 文件用于表达数据集必须满足的约束条件。Amazon SageMaker 模型监控器容器可以使用 constraints.json 文件来评估数据集。利用预构建的容器,可以为基准数据集自动生成 constraints.json 文件。如果您创建了自己的容器,则可以为它提供类似的功能,也可以通过其他方式创建 constraints.json 文件。以下是预构建的容器使用的约束文件的架构。自带容器可以采用相同的格式或根据需要对其进行增强。
{
"version": 0,
"features":
[
{
"name": "string",
"inferred_type": "Integral" | "Fractional" |
| "String" | "Unknown",
"completeness": number,
"num_constraints":
{
"is_non_negative": boolean
},
"string_constraints":
{
"domains":
[
"list of",
"observed values",
"for small cardinality"
]
},
"monitoringConfigOverrides":
{}
}
],
"monitoring_config":
{
"evaluate_constraints": "Enabled",
"emit_metrics": "Enabled",
"datatype_check_threshold": 0.1,
"domain_content_threshold": 0.1,
"distribution_constraints":
{
"perform_comparison": "Enabled",
"comparison_threshold": 0.1,
"comparison_method": "Simple"||"Robust",
"categorical_comparison_threshold": 0.1,
"categorical_drift_method": "LInfinity"||"ChiSquared"
}
}
}
monitoring_config
对象包含用于该特征监控作业的选项。下表描述了每个选项。
监控约束
约束 | 描述 |
---|---|
evaluate_constraints |
在为 有效值: 默认值: |
emit_metrics |
何时 有效值: 默认值: |
datatype_check_threshold |
如果阈值高于指定的 在基准步骤中,生成的约束会为每个列建议推断的数据类型。可以调整 有效值:浮点值 默认值:0.1 |
domain_content_threshold |
如果当前数据集中的字符串字段的未知值多于基准数据集中的未知值,则此阈值可用于指定是否需要将其标记为违规情况。 有效值:浮点值 默认值:0.1 |
distribution_constraints |
perform_comparison
为 有效值: 默认值: |
comparison_threshold
如果阈值高于为 有效值:浮点值 默认值:0.1 |
|
comparison_method
是否计算 有效值: |
|
categorical_comparison_threshold 可选。为分类特征设置阈值。如果数据集中的值超过您设置的阈值,则会在违规情况报告中记录一项违规行为。 有效值:浮点值 默认值:分配给 |
|
categorical_drift_method 可选。对于分类特征,指定用于检测分布偏移的计算方法。如果未设置此参数,则使用 K-S (LInfinity) 检验。 有效值: 默认值: |