在异构集群上运行训练作业 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在异构集群上运行训练作业

使用 Training 的 SageMaker 异构集群功能,您可以使用多种类型的机器学习实例运行训练作业,从而更好地扩展资源,更好地利用不同的机器学习训练任务和目的。例如,如果您在包含GPU实例的集群上的训练作业由于任务CPU密集型而出现GPU利用率低和CPU瓶颈问题,那么使用异构集群可以通过添加更具成本效益的CPU实例组来帮助卸载CPU密集型任务,解决此类瓶颈问题并提高利用率。GPU

注意

此功能在 SageMaker Python 版本 SDK 2.98.0 及更高版本中可用。

注意

此功能可通过 SageMaker PyTorchTensorFlow框架估算器类获得。支持的框架是 PyTorch v1.10 或更高版本以及 TensorFlow v2.6 或更高版本。

另请参阅博客使用 Amazon SageMaker 异构集群提高模型训练的价格性能