本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在异构集群上运行训练作业
使用 Training 的 SageMaker 异构集群功能,您可以使用多种类型的机器学习实例运行训练作业,从而更好地扩展资源,更好地利用不同的机器学习训练任务和目的。例如,如果您在包含GPU实例的集群上的训练作业由于任务CPU密集型而出现GPU利用率低和CPU瓶颈问题,那么使用异构集群可以通过添加更具成本效益的CPU实例组来帮助卸载CPU密集型任务,解决此类瓶颈问题并提高利用率。GPU
注意
此功能在 SageMaker Python 版本 SDK 2.98.0 及更高版本中可用。
注意
此功能可通过 SageMaker PyTorch
另请参阅博客使用 Amazon SageMaker 异构集群提高模型训练的价格性能