SageMaker HyperPod 參考 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 參考

請參閱下列主題,尋找有關使用 SageMaker HyperPod 的詳細資訊和參考資料。

SageMaker HyperPod 定價

下列主題提供有關 SageMaker HyperPod 定價的資訊。如需使用 SageMaker HyperPod 執行個體每小時價格的詳細資訊,另請參閱 Amazon SageMaker 定價

容量請求

您可以配置隨需或預留的運算容量,以 SageMaker 供在上使用 SageMaker HyperPod。隨選叢集建立會從隨 SageMaker需容量集區配置可用容量。或者,您可以透過提交要求提高配額的票證來請求保留容量以確保存取權限。傳入容量請求的優先順序排列 SageMaker ,您會收到容量配置的估計時間。

服務帳單

在佈建計算容量時 SageMaker HyperPod,會按照容量配置的持續時間向您收費。 SageMaker HyperPod 帳單會顯示在您的週年紀念帳單中,其中包含容量配置類型 (隨需、保留)、執行個體類型以及使用執行個體所花費的時間的明細項目。

若要提交提高配額的工單,請參閱SageMaker HyperPod 配額

SageMaker HyperPod API

下列清單是一組完整的 SageMaker HyperPod API,可用來 SageMaker 透過 AWS CLI 或將 JSON 格式的動作要求提交給 AWS SDK for Python (Boto3)。

SageMaker HyperPod 形式

若要在上設定 Slurm 工作負載管理員工具 HyperPod,您應該 HyperPod 使用提供的表單建立所需的 Slurm 組態檔案。

佈建 Slurm 節點的組態表單 HyperPod

下列程式碼是 Slurm 組態表單,您應該準備好在叢集上正確設定 Slurm 節點。 HyperPod 您應該填寫此表單,並在叢集建立期間將其作為一組生命週期指令碼的一部分上傳。若要瞭解如何在 HyperPod 叢集建立程序中準備此表單,請參閱SageMaker HyperPod 生命週期組態最佳作

// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "string", "login_group": "string", "worker_groups": [ { "instance_group_name": "string", "partition_name": "string" } ], "fsx_dns_name": "string", "fsx_mountname": "string" }
  • version - 必要。這是 HyperPod佈建參數表單的版本。保持它1.0.0

  • workload_manager - 必要。這是用來指定要在 HyperPod 叢集上設定的工作負載管理員。保持它slurm

  • controller_group - 必要。這是用來指定要指派給 Slurm 控制器 (head) 節點的 HyperPod 叢集執行個體群組名稱。

  • login_group - 選用。這是用來指定要指派給 Slurm 登入節點的 HyperPod 叢集執行個體群組名稱。

  • worker_groups - 必要。這是為了在叢集上設定 Slurm 工作者 (計算) 節點 HyperPod 。

    • instance_group_name - 必要。這是為了指定要分配給 Slurm 工作者(計算)節點的 HyperPod 實例組的名稱。

    • partition_name - 必要。這是為節點指定磁碟分割名稱。

  • fsx_dns_name - 選用。如果您想要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon FSx 通訊,請指定 FSx DNS 名稱。

  • fsx_mountname - 選用。如果您想要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon FSx 通訊,請指定 FSx 掛載名稱。

SageMaker HyperPod DLAMI

該 SageMaker HyperPod 代理程式會執行 SageMaker HyperPod DLAMI,這是建置在AWS 深度學習基礎 GPU AMI (Ubuntu 20. 04) 之上。

SageMaker HyperPod DLAMI 隨附其他套件,可支援 Slurm 和相依性等開放原始碼工具,以及 SageMaker HyperPod 叢集軟體套件,以支援叢集健康狀態檢查和自動恢復等功能。若要跟進 HyperPod 服務團隊透過 DLAMI 發佈的 HyperPod 軟體更新,請參閱。Amazon SageMaker HyperPod 版本說明

SageMaker HyperPod API 權限參考資料

重要

允許 Amazon SageMaker 工作室或 Amazon 工作 SageMaker 室經典版創建 Amazon SageMaker 資源的自定義 IAM 政策還必須授予許可才能向這些資源添加標籤。需要向資源添加標籤的權限,因為 Studio 和 Studio 經典版會自動標記它們創建的任何資源。如果 IAM 政策允許 Studio 和 Studio 經典版建立資源,但不允許標記,則在嘗試建立資源時可能會發生 AccessDenied "" 錯誤。如需詳細資訊,請參閱 提供標記資 SageMaker源的權限

AWS Amazon 的受管政策 SageMaker授予建立 SageMaker 資源的權限,已包含在建立這些資源時新增標籤的權限。

當您設定存取控制以允許執行 SageMaker HyperPod API 作業,並撰寫可為雲端管理員附加至 IAM 使用者的許可政策時,請使用下表作為參考。

Amazon SageMaker API 操作 必要許可 (API 動作) 資源
CreateCluster sagemaker:CreateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DeleteCluster sagemaker:DeleteCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeCluster sagemaker:DescribeCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeClusterNode sagemaker:DescribeClusterNode arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusterNodes sagemaker:ListClusterNodes arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusters sagemaker:ListClusters arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateCluster sagemaker:UpdateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateClusterSoftware sagemaker:UpdateClusterSoftware arn:aws:sagemaker:region:account-id:cluster/cluster-id

如需 SageMaker API 的權限和資源類型的完整清單,請參閱AWS 服務授權參考 SageMaker中適用於 Amazon 的動作、資源和條件金鑰

SageMaker HyperPod 中的指令 AWS CLI

以下是用 AWS CLI 於 SageMaker HyperPod 運行核心 HyperPod API 操作的命令。

SageMaker HyperPod Python 模塊 AWS SDK for Python (Boto3)

以下是用於 SageMaker 運行核心 HyperPod API 操作的 AWS SDK for Python (Boto3) 客戶端的方法。