1. 以数据为中心的管理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

1. 以数据为中心的管理

数据管理是确保训练、测试和推理中使用的数据得到适当管理、保护和验证的做法。在大规模构建模型时,数据是实现高模型性能的主要商品。

1.1 数据存储库

数据存储库需要能够跟踪数据并查看其来源。添加或删除新数据时,数据存储库会在 point-in-time恢复过程中记录这些更改。数据存储库应考虑如何跟踪和处理标签数据,以及如何跟踪中间数据工件。

1.2 多样化的数据源集成

根据应用程序的不同,训练模型可能需要来自多个来源的数据。设计和维护一份清单,让机器学习从业者了解可用的数据源以及它们是如何结合在一起的,对于构建模型至关重要。

1.3 数据架构验证

要提供模型数据,训练数据必须是同质的。对于存储在数据湖解决方案(如亚马逊简单存储服务 (Amazon S3) Service)或文档数据存储中的数据,可能需要进行转换或其他探索性分析。

1.4 数据版本控制和世系

在训练可能用于生产的模型时,必须能够重现结果,并有可靠的方法进行消融研究,以更好地了解模型的整体性能。跟踪训练数据的状态对于这种可重复性至关重要。诸如数据版本控制 (DVC) 之类的工具可以帮助解决这个问题。

1.5 标签工作流程

如果在项目开始时没有带标签的数据,则创建带标签的数据通常是必要步骤。诸如 Amazon G SageMaker round Truth 之类的工具要求对输入数据进行适当的结构化处理,并且需要经过定义和测试的标签工作。必须使用由内部或外部贴标员组成的员工。然后,应使用冗余标签或机器学习方法对数据进行验证,以识别训练数据集中的异常值或错误。

1.6 在线和离线功能存储

机器学习系统具有功能存储库或集中存储功能和相关元数据,因此可以重复使用要素或模型输入。可以创建在线存储,也可以创建离线存储。使用在线商店获取低延迟、实时的推理用例。使用离线商店进行训练和批量推理。