3. 可观测性和模型管理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

3. 可观测性和模型管理

清单的可观察性和模型管理部分包括整个机器学习系统的模型版本控制和链路跟踪。模型版本控制有助于跟踪和控制应用于模型的所有更改,以便在需要时可以恢复以前的版本。血统跟踪可提供模型流入和流出的视图。世系跟踪的另一个主要优势是 point-in-time恢复 (PITR),它可以自动执行部署和系统恢复。

3.1 版本化模型注册表

通常,模型注册表支持模型组件的版本控制和血统跟踪。良好的注册表可以将元数据与版本化模型相关联,包括以下内容:

  • 使用的数据

  • 有关模型的信息

  • 评估指标结果

  • 关联的模型代码

3.2 偏见、公平和可解释性

机器学习系统至少应该有一个可以向其他各方解释模型预测的过程。用户应该能够检查每个功能的结果是否存在偏差。理想情况下,在将数据输入机器学习模型之前测量数据偏差,并记录这些指标以供模型卡片和审计。

3.3 世系跟踪:数据输入和输出

跟踪功能已经到位,可以跟踪系统内外的数据流(例如,从数据湖到训练管道的运行)。这种跟踪充当可以重新创建所有系统进程的记录,并提供审计跟踪以供分析。

3.4 血统跟踪:环境信息

此跟踪捕获有关运行时环境设置的信息,例如所有模型代码的容器镜像以及容器的相关依赖关系。

3.5 血统跟踪:模型

此跟踪功能会捕获有关模型的信息。它包括从模型算法信息到进入模型的参数和超参数的所有内容。

3.6 与部署和监控集成

该系统应直接与PITR的监测和部署子系统相连。对于监控,这意味着要根据模型的训练运行来测试模型的性能,以检测模型质量的恶化。对于部署,它支持 PITR,并能够根据需要回滚到以前的模型版本。

3.7 流水线参数配置

从技术上讲,管道参数配置既属于谱系跟踪又属于实验跟踪,因为工作流配置必须经过版本控制并与模型直接关联。本节列出了管道参数配置,因为必须跟踪所有系统编排配置并对其进行版本控制。

3.8 问题是可追踪、可调试和可重现的。

工程师可以毫不费力地跟踪、调试和重现系统中的所有问题。这意味着已具备足够的可观察性。该检查主要源于完成 “可观测性和模型管理” 部分下的其他项目。

3.9 性能可视化

系统可以捕获日志并将其收集为时间序列数据库类型格式,然后将其直接摄取到仪表板中。仪表板提供了模型和计算机指标的整体视图,并能够进行深入分析和查询。