本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Batch 支援 SageMaker AI 訓練任務
AWS Batch 任務佇列會在提交的任務在運算資源上執行之前,先儲存並排定其優先順序。您可以將 SageMaker AI 訓練任務提交至任務佇列,以利用 提供的無伺服器任務排程和優先順序工具 AWS Batch。
運作方式
下列步驟說明如何搭配 SageMaker AI 訓練 AWS Batch 任務使用任務佇列的工作流程。如需更詳細的教學課程和範例筆記本,請參閱 開始使用一節。
-
設定 AWS Batch 和任何必要的許可。如需詳細資訊,請參閱AWS Batch 《 使用者指南》中的設定 AWS Batch。
-
在 主控台或使用 建立下列 AWS Batch 資源 AWS CLI:
-
服務環境 – 包含用於與 SageMaker AI 整合的組態參數。
-
SageMaker AI 訓練任務佇列 – 與 SageMaker AI 整合以提交訓練任務。
-
-
設定您的詳細資訊並請求 SageMaker AI 訓練任務,例如您的訓練容器映像。若要將訓練任務提交至 AWS Batch 佇列,您可以使用 AWS CLI 適用於 Python (Boto3) 的 AWS SDK、 或 SageMaker AI Python SDK。
-
將您的訓練任務提交至任務佇列。您可以使用下列選項來提交任務:
-
使用 AWS Batch SubmitServiceJob API。
-
使用 SageMaker AI Python SDK 中的
aws_batch
模組。建立 TrainingQueue 物件和模型訓練物件 (例如估算器或 ModelTrainer) 之後,您可以使用 queue.submit()
方法將訓練任務提交至 TrainingQueue。
-
-
提交任務後,請使用 AWS Batch 主控台、 AWS Batch DescribeServiceJob API 或 SageMaker AI DescribeTrainingJob API 檢視您的任務佇列和任務狀態。
成本和可用性
如需訓練任務的詳細定價資訊,請參閱 Amazon SageMaker AI 定價
您可以在提供訓練任務的任何 AWS 區域 中使用 AWS Batch 進行 SageMaker AI 訓練任務。如需詳細資訊,請參閱 Amazon SageMaker AI 端點和配額。
為了確保在需要時擁有所需的容量,您可以使用 SageMaker AI Flexible Training Plans (FTP)。這些計劃可讓您為訓練任務保留容量。與 AWS Batch的佇列功能結合時,您可以在計劃持續時間內最大化使用率。如需詳細資訊,請參閱為您訓練任務或 HyperPod 叢集預留訓練計畫。
開始使用
如需如何設定 AWS Batch 任務佇列和提交 SageMaker AI 訓練任務的教學課程,請參閱AWS Batch 《 使用者指南》中的 AWS Batch SageMaker AI 入門。
如需示範如何在 SageMaker AI Python SDK 中使用aws_batch
模組的 Jupyter 筆記本,請參閱 AWS Batch amazon-sagemaker-examples GitHub 儲存庫中的 for SageMaker AI Training 任務筆記本範例