本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 推論版本備註
本主題涵蓋追蹤 Amazon SageMaker HyperPod 推論更新、修正和新功能的版本備註。SageMaker HyperPod Inference 可讓您在具有企業級可靠性的 HyperPod 叢集上部署和擴展機器學習模型。如需一般 Amazon SageMaker HyperPod 平台版本、更新和改進,請參閱 Amazon SageMaker HyperPod 版本備註。
如需 SageMaker HyperPod 推論功能和部署選項的相關資訊,請參閱 在 Amazon SageMaker HyperPod 上部署模型。
SageMaker HyperPod 推論版本備註:3.0 版
版本日期:2026 年 2 月 23 日
總結
Inference Operator 3.0 推出 EKS 附加元件整合,以簡化生命週期管理、Node Affinity 支援精細排程控制,並改善資源標記。您可以使用提供的遷移指令碼,將現有的 Helm 型安裝遷移至 EKS 附加元件。升級之前,請使用新的標記許可更新您的推論運算子執行角色。
主要功能
-
EKS 附加元件整合 – 具有簡化安裝體驗的企業級生命週期管理
-
節點親和性 – 精細排程控制,用於排除 Spot 執行個體、偏好可用區域,或以具有自訂標籤的節點為目標
如需詳細資訊,包括先決條件、升級說明和遷移指引,請參閱以下各節。
先決條件
將 Helm 版本升級至 3.0 之前,客戶應將額外的標記許可新增至其推論運算子執行角色。為了改善資源標記和安全性,推論運算子現在會標記 ALB、S3 和 ACM 資源。此增強功能需要 Inference Operator 執行角色中的其他許可。將下列許可新增至您的推論運算子執行角色:
{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }
升級至 v3.0
如果您已透過 Helm 安裝推論運算子,請使用下列命令升級:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Helm 到 EKS 附加元件遷移
如果推論運算子是在 3.0 版本之前透過 Helm 安裝,我們建議您遷移至 EKS 附加元件,以取得針對推論運算子發行的新功能的及時更新。此指令碼會將 SageMaker HyperPod 推論運算子從 Helm 型安裝遷移至 EKS 附加元件安裝。
概觀:指令碼以叢集名稱和區域做為參數,擷取現有的 Helm 安裝組態,並遷移至 EKS 附加元件部署。它會為推論運算子、ALB 控制器和 KEDA 運算子建立新的 IAM 角色。
在遷移推論運算子之前,指令碼可確保存在必要的相依性 (S3 CSI 驅動程式、FSx CSI 驅動程式、cert-manager 和 metrics-server)。如果它們不存在,則會將其部署為附加元件。
推論運算子附加元件遷移完成後,如果原始透過推論運算子 Helm Chart 安裝,指令碼也會遷移 S3、FSx 和其他相依性 (ALB、KEDA、cert-manager、metric-server)。使用 --skip-dependencies-migration略過 S3 CSI 驅動程式、FSx CSI 驅動程式、cert-manager 和 metrics-server 的此步驟。請注意,ALB 和 KEDA 作為附加元件的一部分安裝在與推論運算子相同的命名空間中,並將作為推論運算子附加元件的一部分遷移。
重要
在遷移期間,請勿部署新模型,因為在遷移完成之前不會部署這些模型。一旦推論運算子附加元件處於 ACTIVE 狀態,就可以部署新的模型。遷移時間通常需要 15 到 20 分鐘,如果目前只部署幾個模型,則可以在 30 分鐘內完成。
遷移先決條件:
AWS CLI 使用適當的登入資料設定
設定為可存取 EKS 叢集的 kubectl
已安裝 Helm
hyperpod-inference-operator 的現有 Helm 安裝
注意
已在執行中的端點不會在遷移過程中中斷。現有的端點將繼續在整個遷移過程中為流量提供服務,而不會中斷。
取得遷移指令碼:
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration
用量:
./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)
選項:
--cluster-name NAME– EKS 叢集名稱 (必要)--region REGION– AWS region (必要)--helm-namespace NAMESPACE– 安裝 Helm Chart 的命名空間 (預設:kube-system) (選用)--s3-mountpoint-role-arn ARN– S3 掛載點 CSI 驅動程式 IAM 角色 ARN (選用)--fsx-role-arn ARN– FSx CSI 驅動程式 IAM 角色 ARN (選用)--auto-approve– 如果啟用此標記,則略過確認提示。step-by-step和auto-approve是互斥的,如果--auto-approve指定,則不要指定--step-by-step(選用)--step-by-step– 在每個主要步驟檢閱後暫停。如果--auto-approve已新增 ,則不應提及 (選用)--skip-dependencies-migration– 略過將 Helm 安裝的相依性遷移至附加元件。對於未透過推論運算子 Helm Chart 安裝的相依性,或如果您想要單獨管理相依性。(選用)
範例:
基本遷移 (遷移相依性):
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1
在沒有提示的情況下自動核准:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve
略過 FSx、S3 掛載點、cert manager 和 Metrics 伺服器的相依性遷移:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration
提供現有的 S3 和 FSx IAM 角色:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
備份位置:
備份存放在 /tmp/hyperpod-migration-backup-<timestamp>/
備份可實現安全的遷移和復原:
失敗時轉返 – 如果遷移失敗,指令碼可以使用備份組態自動將叢集還原至其預遷移狀態
稽核追蹤 – 提供遷移前存在項目的完整記錄,以進行故障診斷和合規
組態參考 – 可讓您比較遷移前和遷移後組態
手動復原 – 如有需要,您可以從備份目錄手動檢查和還原特定資源
轉返:
如果遷移失敗,指令碼會在啟動復原之前提示使用者確認,以還原先前的狀態。
SageMaker HyperPod 推論版本備註:v2.3
最新消息
此版本在自訂資源定義 (CRDs) 中引入新的選用欄位,以增強部署組態彈性。
功能
-
多個執行個體類型
-
增強的部署可靠性 – 當偏好的選項缺乏容量時,支援具有自動容錯移轉至替代執行個體類型的多執行個體類型組態
-
智慧型資源排程 – 使用 Kubernetes 節點親和性來排定執行個體類型的優先順序,同時確保部署,即使偏好的資源無法使用
-
最佳化成本和效能 – 維護執行個體類型偏好設定,並防止叢集波動期間的容量相關故障
-
錯誤修正
對 規格invocationEndpoint中的 欄位所做的變更現在InferenceEndpointConfig將生效:
-
如果修補或更新
invocationEndpoint欄位,則會使用標準化更新相依資源,例如Ingress、Load Balancer、SageMakerEndpointRegistration和 SageMaker 端點。 -
invocationEndpoint提供的 值將依原樣存放在InferenceEndpointConfig規格本身。當此值用於建立Load Balancer,以及如果啟用 SageMaker 端點時,它會標準化為有一個正斜線。-
v1/chat/completions會/v1/chat/completions針對Ingress、AWS Load Balancer 和 SageMaker 端點標準化為 。對於SageMakerEndpointRegistration,它會在其規格中顯示為v1/chat/completions。 -
///invoke將/invoke針對Ingress、AWS Load Balancer 和 SageMaker 端點標準化為 。對於SageMakerEndpointRegistration,它會在其規格中顯示為invoke。
-
安裝 Helm:
遵循:https://https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart
如果您只專注於安裝推論運算子,請在步驟 1 之後Set Up Your Helm Environment執行 。 cd HyperPodHelmChart/charts/inference-operator由於您位於推論運算子圖表目錄本身,因此無論您在何處看到 ,請在命令中helm_chart/HyperPodHelmChart將 取代為 . 。
如果已安裝 ,請將運算子升級至 v2.3:
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3