本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
内置算法的实例类型
大多数 Amazon SageMaker AI 算法都经过精心设计,可以利用 GPU 计算进行训练。尽管每个实例的成本更高,但 GPUs 训练速度更快,从而更具成本效益。本指南中注明了例外。
要了解支持的 EC2 实例,请参阅实例详情
数据的大小和类型会对最高效硬件配置产生很大的影响。在定期训练相同的模型时,针对一系列实例类型进行初始测试,可找到在长时间运行中最经济高效的配置。此外,训练效率最高的算法 GPUs 可能不需要 GPUs 有效的推理。进行试验,以确定最具成本效益的解决方案。要获得自动实例推荐或进行自定义负载测试,请使用 Amazon SageMaker 推理推荐器。
有关 SageMaker AI 硬件规格的更多信息,请参阅 Amazon SageMaker AI ML 实例类型
UltraServers
UltraServers 使用低延迟、高带宽的加速器互连连接多个 Amazon EC2 实例。它们专为处理需要强大处理能力的大规模 AI/ML 工作负载而设计。有关更多信息,请参阅 Amazon EC2 UltraServers
要开始使用 Amaz UltraServers on SageMaker AI,请制定培训计划。 UltraServer 在您的训练计划中可用后,使用 Amazon AI AP SageMaker I 或创建训练作业 AWS CLI。 AWS Management Console请记得指定您在培训计划中购买的 UltraServer 实例类型。
一次 UltraServer 可以运行一个或多个作业。 UltraServers 将实例分组在一起,这样您就可以灵活地在组织中分配 UltraServer 容量。在配置作业时,还要记住贵组织的数据安全准则,因为一个实例中的实例 UltraServer 可以在同一个实例上访问另一个实例中另一个作业的数据 UltraServer。
如果您在中遇到硬件故障 UltraServer, SageMaker AI 会自动尝试解决问题。当 SageMaker AI 调查并解决问题时,您可能会通过 AWS Health 事件或收到通知和操作。 AWS 支持
训练作业完成后, SageMaker AI 会停止这些实例,但如果您的训练计划仍处于活动状态,则这些实例仍可在您的训练计划中使用。要在任务完成后使实例保持 UltraServer 运行状态,您可以使用托管的温池。
如果你的训练计划有足够的容量,你甚至可以在多个训练计划中运行训练作业 UltraServers。默认情况下,每个实例都 UltraServer 有 18 个实例,包括 17 个实例和 1 个备用实例。如果您需要更多实例,则必须购买更多实例 UltraServers。创建训练作业时,您可以使用InstancePlacementConfig
参数配置任务的放 UltraServers 置方式。
如果您未配置工作安置, SageMaker AI 会自动将作业分配给您的 UltraServer实例。此默认策略基于尽力而为,在使用不同的实例 UltraServer 之前,优先将所有实例填充为一个实例。 UltraServer例如,如果您请求 14 个实例,并且您的训练计划 UltraServers 中有 2 个实例, SageMaker AI 将使用第一个实例中的所有实例 UltraServer。如果您请求了 20 个实例,并且训练计划 UltraServers 中有 2 个实例, SageMaker AI 将在第一个实例中使用所有 17 个实例, UltraServer 然后使用第二个实例中的 3 个实例 UltraServer。内部的实例用于通信,但个人 UltraServer UltraServers 使用 NVLink Elastic Fabric Adapter (EFA),这可能会影响模型训练性能。