违规情况的架构(constraint_violations.json 文件) - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

违规情况的架构(constraint_violations.json 文件)

违规情况文件作为 MonitoringExecution 的输出生成,其中列出了针对所分析的当前数据集评估约束(在 constraints.json 文件中指定)的结果。Amazon SageMaker 模型监控器预建容器提供以下违规检查。

{ "violations": [{ "feature_name" : "string", "constraint_check_type" : "data_type_check", | "completeness_check", | "baseline_drift_check", | "missing_column_check", | "extra_column_check", | "categorical_values_check" "description" : "string" }] }

监控的违规情况的类型

违规情况检查类型 描述
data_type_check

如果当前执行中的数据类型与基准数据集中的数据类型不同,则会标记此违规情况。

在基准步骤中,生成的约束会为每个列建议推断的数据类型。可以调整 monitoring_config.datatype_check_threshold 参数,以便调整标记为违规时的阈值。

completeness_check

如果当前执行中观察到的完整性(非空项目的百分比)超过了为每个特征指定的完整性阈值中指定的阈值,则会标记此违规情况。

在基准步骤中,生成的约束会建议一个完整性值。

baseline_drift_check

如果当前数据集和基准数据集之间计算的分布距离大于 monitoring_config.comparison_threshold 中指定的阈值,则会标记此违规情况。

missing_column_check

如果当前数据集中的列数小于基准数据集中的列数,则会标记此违规情况。

extra_column_check

如果当前数据集中的列数大于基准数据集中的列数,则会标记此违规情况。

categorical_values_check

如果当前数据集中的未知值多于基准数据集中的未知值,则会标记此违规情况。此值由 monitoring_config.domain_content_threshold 中的阈值决定。