Amazon SageMaker HyperPod 推論版本備註 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 推論版本備註

本主題涵蓋追蹤 Amazon SageMaker HyperPod 推論更新、修正和新功能的版本備註。SageMaker HyperPod Inference 可讓您在具有企業級可靠性的 HyperPod 叢集上部署和擴展機器學習模型。如需一般 Amazon SageMaker HyperPod 平台版本、更新和改進,請參閱 Amazon SageMaker HyperPod 版本備註

如需 SageMaker HyperPod 推論功能和部署選項的相關資訊,請參閱 在 Amazon SageMaker HyperPod 上部署模型

SageMaker HyperPod 推論版本備註:3.0 版

版本日期:2026 年 2 月 23 日

總結

Inference Operator 3.0 推出 EKS 附加元件整合,以簡化生命週期管理、Node Affinity 支援精細排程控制,並改善資源標記。您可以使用提供的遷移指令碼,將現有的 Helm 型安裝遷移至 EKS 附加元件。升級之前,請使用新的標記許可更新您的推論運算子執行角色。

主要功能

  • EKS 附加元件整合 – 具有簡化安裝體驗的企業級生命週期管理

  • 節點親和性 – 精細排程控制,用於排除 Spot 執行個體、偏好可用區域,或以具有自訂標籤的節點為目標

如需詳細資訊,包括先決條件、升級說明和遷移指引,請參閱以下各節。

先決條件

將 Helm 版本升級至 3.0 之前,客戶應將額外的標記許可新增至其推論運算子執行角色。為了改善資源標記和安全性,推論運算子現在會標記 ALB、S3 和 ACM 資源。此增強功能需要 Inference Operator 執行角色中的其他許可。將下列許可新增至您的推論運算子執行角色:

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

升級至 v3.0

如果您已透過 Helm 安裝推論運算子,請使用下列命令升級:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Helm 到 EKS 附加元件遷移

如果推論運算子是在 3.0 版本之前透過 Helm 安裝,我們建議您遷移至 EKS 附加元件,以取得針對推論運算子發行的新功能的及時更新。此指令碼會將 SageMaker HyperPod 推論運算子從 Helm 型安裝遷移至 EKS 附加元件安裝。

概觀:指令碼以叢集名稱和區域做為參數,擷取現有的 Helm 安裝組態,並遷移至 EKS 附加元件部署。它會為推論運算子、ALB 控制器和 KEDA 運算子建立新的 IAM 角色。

在遷移推論運算子之前,指令碼可確保存在必要的相依性 (S3 CSI 驅動程式、FSx CSI 驅動程式、cert-manager 和 metrics-server)。如果它們不存在,則會將其部署為附加元件。

推論運算子附加元件遷移完成後,如果原始透過推論運算子 Helm Chart 安裝,指令碼也會遷移 S3、FSx 和其他相依性 (ALB、KEDA、cert-manager、metric-server)。使用 --skip-dependencies-migration略過 S3 CSI 驅動程式、FSx CSI 驅動程式、cert-manager 和 metrics-server 的此步驟。請注意,ALB 和 KEDA 作為附加元件的一部分安裝在與推論運算子相同的命名空間中,並將作為推論運算子附加元件的一部分遷移。

重要

在遷移期間,請勿部署新模型,因為在遷移完成之前不會部署這些模型。一旦推論運算子附加元件處於 ACTIVE 狀態,就可以部署新的模型。遷移時間通常需要 15 到 20 分鐘,如果目前只部署幾個模型,則可以在 30 分鐘內完成。

遷移先決條件:

  • AWS CLI 使用適當的登入資料設定

  • 設定為可存取 EKS 叢集的 kubectl

  • 已安裝 Helm

  • hyperpod-inference-operator 的現有 Helm 安裝

注意

已在執行中的端點不會在遷移過程中中斷。現有的端點將繼續在整個遷移過程中為流量提供服務,而不會中斷。

取得遷移指令碼:

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

用量:

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

選項:

  • --cluster-name NAME – EKS 叢集名稱 (必要)

  • --region REGION – AWS region (必要)

  • --helm-namespace NAMESPACE – 安裝 Helm Chart 的命名空間 (預設:kube-system) (選用)

  • --s3-mountpoint-role-arn ARN – S3 掛載點 CSI 驅動程式 IAM 角色 ARN (選用)

  • --fsx-role-arn ARN – FSx CSI 驅動程式 IAM 角色 ARN (選用)

  • --auto-approve – 如果啟用此標記,則略過確認提示。 step-by-stepauto-approve 是互斥的,如果--auto-approve指定,則不要指定 --step-by-step(選用)

  • --step-by-step – 在每個主要步驟檢閱後暫停。如果--auto-approve已新增 ,則不應提及 (選用)

  • --skip-dependencies-migration – 略過將 Helm 安裝的相依性遷移至附加元件。對於未透過推論運算子 Helm Chart 安裝的相依性,或如果您想要單獨管理相依性。(選用)

範例

基本遷移 (遷移相依性):

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

在沒有提示的情況下自動核准:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

略過 FSx、S3 掛載點、cert manager 和 Metrics 伺服器的相依性遷移:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

提供現有的 S3 和 FSx IAM 角色:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

備份位置:

備份存放在 /tmp/hyperpod-migration-backup-<timestamp>/

備份可實現安全的遷移和復原:

  • 失敗時轉返 – 如果遷移失敗,指令碼可以使用備份組態自動將叢集還原至其預遷移狀態

  • 稽核追蹤 – 提供遷移前存在項目的完整記錄,以進行故障診斷和合規

  • 組態參考 – 可讓您比較遷移前和遷移後組態

  • 手動復原 – 如有需要,您可以從備份目錄手動檢查和還原特定資源

轉返:

如果遷移失敗,指令碼會在啟動復原之前提示使用者確認,以還原先前的狀態。

SageMaker HyperPod 推論版本備註:v2.3

最新消息

此版本在自訂資源定義 (CRDs) 中引入新的選用欄位,以增強部署組態彈性。

功能

  • 多個執行個體類型

    • 增強的部署可靠性 – 當偏好的選項缺乏容量時,支援具有自動容錯移轉至替代執行個體類型的多執行個體類型組態

    • 智慧型資源排程 – 使用 Kubernetes 節點親和性來排定執行個體類型的優先順序,同時確保部署,即使偏好的資源無法使用

    • 最佳化成本和效能 – 維護執行個體類型偏好設定,並防止叢集波動期間的容量相關故障

錯誤修正

對 規格invocationEndpoint中的 欄位所做的變更現在InferenceEndpointConfig將生效:

  • 如果修補或更新 invocationEndpoint 欄位,則會使用標準化更新相依資源,例如 Ingress、Load Balancer、 SageMakerEndpointRegistration和 SageMaker 端點。

  • invocationEndpoint 提供的 值將依原樣存放在InferenceEndpointConfig規格本身。當此值用於建立Load Balancer,以及如果啟用 SageMaker 端點時,它會標準化為有一個正斜線。

    • v1/chat/completions/v1/chat/completions針對 Ingress、AWS Load Balancer 和 SageMaker 端點標準化為 。對於 SageMakerEndpointRegistration,它會在其規格中顯示為 v1/chat/completions

    • ///invoke/invoke針對 Ingress、AWS Load Balancer 和 SageMaker 端點標準化為 。對於 SageMakerEndpointRegistration,它會在其規格中顯示為 invoke

安裝 Helm:

遵循:https://https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

如果您只專注於安裝推論運算子,請在步驟 1 之後Set Up Your Helm Environment執行 。 cd HyperPodHelmChart/charts/inference-operator由於您位於推論運算子圖表目錄本身,因此無論您在何處看到 ,請在命令中helm_chart/HyperPodHelmChart將 取代為 .

如果已安裝 ,請將運算子升級至 v2.3:

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3