本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
6. 持续监控
在持续监控中,自动化流程会观察和检测性能问题和模型问题。然后,所有者可以实时识别潜在的问题和威胁,从而快速解决这些问题和威胁。
持续监控揭示了可能的模型问题,例如数据质量、分布偏移、模型概念偏移和模型质量下降。持续监控还包括对传统系统衡量标准(例如饱和度、延迟、流量和错误)的全面记录。我们制定了实用的通知和警报策略,以便在出现问题时通知所有者。
6.1 模型监控:数据质量检测 |
基于规则的监控可以知道传入的数据何时偏离模型训练数据。这种类型的监控根据训练数据创建架构,根据该架构设置约束,然后在发生违规时运行异常。 |
6.2 模型监控:分布偏移 |
设置监控是为了查看传入的数据分布,并检查其是否偏离模型训练数据分布。例如,将传入的数据作为推理数据的移动窗口 |
6.3 模型监控:模型概念偏差 |
概念漂移检查会查找模型的输入和目标变量之间的关系,使其与训练数据保持不变。另一项检查是为了确认相对特征及其重要性没有改变。 |
6.4 模型监控:模型评估检查 |
这是一项监控检查,用于评估模型的质量是否已降低。模型评估检查将训练时间的基线评估指标与传入的结果进行比较,以评估模型在新数据上的准确性水平是否有所降低。由于它计算精度指标,因此该检查要求在推理后提供新数据的真实性。 |
6.5 系统捕获:输入架构 |
机器学习系统捕获训练、测试和验证数据的架构。除了提供有关输入的信息外,架构还提供有关其偏差和完整性的统计数据。 架构用于生产环境中的即时测试和数据质量监控检查。 |
6.6 系统捕获:评估结果和统计数据 |
机器学习系统输出有关验证和训练数据的准确性信息。它可以输出验证和训练运行中的预测和真实标签。它们被用作现场制作模型的监控约束。 |
6.7 系统捕获:异常 |
有一种跟踪机制可以标记传入数据流中的异常。如果传入的数据中出现异常值,或者在指定的时间段内关键特征分布发生变化,则系统会将其识别为异常并进行标记。 |
6.8 日志:饱和度和资源 |
可以记录系统已满的程度。资源和饱和度指标应侧重于 CPU 利用率、图形处理单元 (GPU) 利用率、内存利用率和磁盘利用率。这些指标应以时间序列格式提供,并且能够以百分位数进行测量。对于批处理作业,它提供了有关吞吐量的信息,该信息显示了系统在每段时间内可以处理多少个信息单位。 |
6.9 日志:延迟 |
应进行日志记录,以衡量网络通信的延迟或处理请求所需的时间。工程师应该能够判断推理模型需要多长时间才能提供预测,以及模型加载需要多长时间。 |
6.10 日志记录:流量 |
流量的日志设置用于衡量每个实例上的流量。流量是通过在一定时间内发送或接收的 HTTP 请求数和字节数或数据包来衡量的。记录流量可提供对系统总工作负载的见解。 |
6.11 日志记录:错误 |
错误的日志记录设置会捕获失败的请求数。失败有以下几种类型:
如果协议响应码不足以表达所有故障情况,则可能需要辅助(内部)协议来跟踪部分故障模式。 |
6.12 通知和警报 |
通知和警报是通过监控设置的。通知包括获取 Slack、电子邮件通知、页面和短信服务 (SMS) 消息的功能。警报并不意味着针对所有可能的违规行为发送通知。相反,这意味着要针对对开发团队有意义且重要的特定异常设置警报。通过这种方式,可以避免警觉疲劳。 |