4. 强大的渠道和推广 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

4. 强大的渠道和推广

流水线为超参数调整、AutoML 和处理例程提供了许多选项。管道是从头到尾记录的。强大的管道可以跨多个实例和框架并行运行训练,并根据需要扩展负载大小。强大的管道可以将模型推广到生产中,以实时、流媒体和批量方式部署。这些部署可以支持单模型或多模型推理。

4.1 大规模和分布式训练

成熟的机器学习系统支持在大型计算优化实例上并行运行训练的功能。它有足够的工具来帮助确保这些资源得到充分利用,并且训练在整个计算集群中均匀扩展。

4.2 对多个框架的支持

开发人员可以移植不同的平台框架(例如 PyTorch 或 Flax)来运行训练和推理作业。同样,支持和使用不同的语言和版本。切换到另一个框架不会破坏系统。

4.3 超参数调整

超参数调整步骤是训练管道的一部分。已部署的模型已调整其超参数。有多个选项可用于调整超参数。为了提高精度,至少有一个调整选项应采用贝叶斯推断或方法。

4.4 AutoML 选项

为了减少手动实验和比较,成熟的机器学习系统支持运行 AutoML,自动选择最佳功能管道、超参数和模型。请注意,AutoML 是一项实用使用的功能,但它不是灵丹妙药。

4.5 推理支持:实时

这通常被称为模型即服务 (MaaS)。该系统支持通过 REST API 操作进行实时推理,用于按需推理请求。它能够提供 MaaS 基础架构,在该基础架构上,模型可以作为独立的 API 或与其他应用程序关联的端点进行水平和垂直扩展。或者,也可以使用无服务器技术进行部署。

4.6 推理支持:直播

可以将模型提升为实时推理格式,例如 Amazon Kinesis 或适用于 Apache Kafka 的 Amazon Managed Streaming,从而在模型上以流媒体方式进行推理。这需要至少 90% 的清单才能完成,因为护栏、可观察性和监控对于实时推理至关重要。

4.7 推理支持:批处理

该系统支持将模型作为计划或已启动的任务进行批量部署。系统可以将模型作为提取、转换和加载 (ETL) 过程的一部分运行,也可以单独运行。Batch 作业记录每个步骤的状态,并按有序模式运行,例如有向无环图。或者,作业可以写入数据库,数据库充当模型推理的服务器。

4.8 预处理和后处理例程

必要时,数据将作为模型采集过程或批处理作业的一部分进行特征。如果有多个模型或多个步骤在起作用,则后处理例程会负责对数据进行特征化。

4.9 能够调用分层模型或同步模型

机器学习系统可以一起部署多个模型,也可以按顺序运行它们。前者意味着在资源队列中的单个模型端点上托管。后者意味着多个模型需要一个接一个地以链式方式运行。系统可以灵活地处理这两种类型的复杂性。

4.10 水平和垂直缩放策略

管道应该能够支持用于训练和推理的两种扩展策略。当延迟或吞吐量增加时,机器学习系统可以增加其大小并在多台计算机上分配流量。针对此类行为制定了策略,并考虑了最佳资源分配。

4.11 日志记录 End-to-end

开发团队应在所有管道代码中设置日志记录,以便日志记录可以捕获系统中的输入、输出和中间步骤。日志记录应支持跟踪管道中的运行和调试错误。