2. 实验 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

2. 实验

实验包括实验记录、跟踪和指标。这转化为跨平台、源代码控制和开发环境中的实验元数据集成。实验还包括能够通过调试来优化模型性能和准确性。

2.1 集成开发环境

集成开发环境 (IDE) 直接与云集成。IDE 可以与更大的系统交互并向其提交命令。理想情况下,它支持以下内容:

  • 本地开发

  • 版本控制集成

  • 调试到位,生成的所有日志和工件都进入版本控制

2.2 代码版本控制

为了帮助确保可重复性和可重用性,所有代码都被提交到具有适当版本控制的源代码库中。这包括基础架构代码、应用程序代码、模型代码,甚至笔记本电脑(如果您选择使用它们)。

2.3 追踪

机器学习项目需要能够跟踪和分析机器学习实验的工具。该工具应记录机器学习实验运行期间的所有指标、参数和工件,并将所有元数据记录到一个中心位置。中心位置将使您能够分析、可视化和审计您运行的所有实验。

2.4 跨平台集成

实验的历史结果及其所有元数据都可以在系统的其他部分中访问。例如,现有的编排管道可以访问这些数据,监控工具也可以访问这些数据。

2.5 调试:准确性和系统性能

一个全面的模型调试框架已经到位,可以检查以下各项的运行情况:

  • 找出瓶颈

  • 异常警报

  • 最大限度提高资源利用率

  • 帮助分析实验

当训练密集时,最大限度地提高吞吐量的能力至关重要,这使得它成为成本优化的必要工具。