6. 持续监控

在持续监控中，自动化流程会观察和检测性能问题和模型问题。然后，所有者可以实时识别潜在的问题和威胁，从而快速解决这些问题和威胁。

持续监控揭示了可能的模型问题，例如数据质量、分布偏移、模型概念偏移和模型质量下降。持续监控还包括对传统系统衡量标准（例如饱和度、延迟、流量和错误）的全面记录。我们制定了实用的通知和警报策略，以便在出现问题时通知所有者。

6.1 模型监控：数据质量检测	基于规则的监控可以知道传入的数据何时偏离模型训练数据。这种类型的监控根据训练数据创建架构，根据该架构设置约束，然后在发生违规时运行异常。
6.2 模型监控：分布偏移	设置监控是为了查看传入的数据分布，并检查其是否偏离模型训练数据分布。例如，将传入的数据作为推理数据的移动窗口进行采样。然后运行作业来测试采样分布和训练分布，以查看它们是否相同。
6.3 模型监控：模型概念偏差	概念漂移检查会查找模型的输入和目标变量之间的关系，使其与训练数据保持不变。另一项检查是为了确认相对特征及其重要性没有改变。
6.4 模型监控：模型评估检查	这是一项监控检查，用于评估模型的质量是否已降低。模型评估检查将训练时间的基线评估指标与传入的结果进行比较，以评估模型在新数据上的准确性水平是否有所降低。由于它计算精度指标，因此该检查要求在推理后提供新数据的真实性。
6.5 系统捕获：输入架构	机器学习系统捕获训练、测试和验证数据的架构。除了提供有关输入的信息外，架构还提供有关其偏差和完整性的统计数据。架构用于生产环境中的即时测试和数据质量监控检查。
6.6 系统捕获：评估结果和统计数据	机器学习系统输出有关验证和训练数据的准确性信息。它可以输出验证和训练运行中的预测和真实标签。它们被用作现场制作模型的监控约束。
6.7 系统捕获：异常	有一种跟踪机制可以标记传入数据流中的异常。如果传入的数据中出现异常值，或者在指定的时间段内关键特征分布发生变化，则系统会将其识别为异常并进行标记。
6.8 日志：饱和度和资源	可以记录系统已满的程度。资源和饱和度指标应侧重于 CPU 利用率、图形处理单元 (GPU) 利用率、内存利用率和磁盘利用率。这些指标应以时间序列格式提供，并且能够以百分位数进行测量。对于批处理作业，它提供了有关吞吐量的信息，该信息显示了系统在每段时间内可以处理多少个信息单位。
6.9 日志：延迟	应进行日志记录，以衡量网络通信的延迟或处理请求所需的时间。工程师应该能够判断推理模型需要多长时间才能提供预测，以及模型加载需要多长时间。
6.10 日志记录：流量	流量的日志设置用于衡量每个实例上的流量。流量是通过在一定时间内发送或接收的 HTTP 请求数和字节数或数据包来衡量的。记录流量可提供对系统总工作负载的见解。
6.11 日志记录：错误	错误的日志记录设置会捕获失败的请求数。失败有以下几种类型：显式（例如，HTTP 500 错误）隐式（例如，带有错误内容的 HTTP 200 成功响应）政策（例如，如果您承诺响应时间为一秒，则任何超过一秒的请求都是错误的）如果协议响应码不足以表达所有故障情况，则可能需要辅助（内部）协议来跟踪部分故障模式。
6.12 通知和警报	通知和警报是通过监控设置的。通知包括获取 Slack、电子邮件通知、页面和短信服务 (SMS) 消息的功能。警报并不意味着针对所有可能的违规行为发送通知。相反，这意味着要针对对开发团队有意义且重要的特定异常设置警报。通过这种方式，可以避免警觉疲劳。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

5. 持续集成

7. 持续部署