选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

约束的架构(constraints.json 文件)

聚焦模式
约束的架构(constraints.json 文件) - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

constraints.json 文件用于表达数据集必须满足的约束条件。Amazon SageMaker 模型监控器容器可以使用 constraints.json 文件来评估数据集。利用预构建的容器,可以为基准数据集自动生成 constraints.json 文件。如果您创建了自己的容器,则可以为它提供类似的功能,也可以通过其他方式创建 constraints.json 文件。以下是预构建的容器使用的约束文件的架构。自带容器可以采用相同的格式或根据需要对其进行增强。

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

monitoring_config 对象包含用于该特征监控作业的选项。下表描述了每个选项。

监控约束

约束 描述
evaluate_constraints

在为 Enabled 时,评估正在分析的当前数据集是否满足将 constraints.json 文件中指定的约束作为基准。

有效值:EnabledDisabled

默认值:Enabled

emit_metrics

何时Enabled,会发出文件中包含的数据的 CloudWatch 指标。

有效值:EnabledDisabled

默认值:Enabled

datatype_check_threshold

如果阈值高于指定的 datatype_check_threshold 的值,则会导致在违规情况报告中被视为违规情况的失败。如果当前执行中的数据类型与基准数据集中的数据类型不同,则此阈值用于评估是否需要将其标记为违规情况。

在基准步骤中,生成的约束会为每个列建议推断的数据类型。可以调整 datatype_check_threshold 参数,以便调整标记为违规时的阈值。

有效值:浮点值

默认值:0.1

domain_content_threshold

如果当前数据集中的字符串字段的未知值多于基准数据集中的未知值,则此阈值可用于指定是否需要将其标记为违规情况。

有效值:浮点值

默认值:0.1

distribution_constraints perform_comparison

Enabled 时,此标志指示代码在基准分布与当前数据集观察到的分布之间执行分布比较。

有效值:EnabledDisabled

默认值:Enabled

comparison_threshold

如果阈值高于为 comparison_threshold 设置的值,则会导致在违规情况报告中被视为违规情况的失败。通过获取两个分布的累积分布函数之间的最大绝对差来计算距离。

有效值:浮点值

默认值:0.1

comparison_method

是否计算 linf_simplelinf_robustlinf_simple 基于两个分布的累积分布函数之间的最大绝对差。计算 linf_robust 基于 linf_simple,但仅在样本不足时使用它。linf_robust 公式基于 Two-sample Kolmogorov–Smirnov 测试

有效值:linf_simplelinf_robust

categorical_comparison_threshold

可选。为分类特征设置阈值。如果数据集中的值超过您设置的阈值,则会在违规情况报告中记录一项违规行为。

有效值:浮点值

默认值:分配给 comparison_threshold 参数的值

categorical_drift_method

可选。对于分类特征,指定用于检测分布偏移的计算方法。如果未设置此参数,则使用 K-S (LInfinity) 检验。

有效值:LInfinityChiSquared

默认值:LInfinity

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。