Versionshinweise SageMaker HyperPod zu Amazon Inference

Dieses Thema behandelt Versionshinweise, in denen Updates, Korrekturen und neue Funktionen für Amazon SageMaker HyperPod Inference nachverfolgt werden. SageMaker HyperPod Inference ermöglicht Ihnen die Bereitstellung und Skalierung von Modellen für maschinelles Lernen auf Ihren HyperPod Clustern mit Zuverlässigkeit auf Unternehmensniveau. Allgemeine Versionen, Updates und Verbesserungen der SageMaker HyperPod Amazon-Plattform finden Sie unterSageMaker HyperPod Versionshinweise von Amazon.

Informationen zu den Funktionen und Bereitstellungsoptionen von SageMaker HyperPod Inference finden Sie unterBereitstellen von Modellen auf Amazon SageMaker HyperPod.

SageMaker HyperPod Versionshinweise zu Inference: v3.0

Datum der Veröffentlichung: 23. Februar 2026

Übersicht

Inference Operator 3.0 führt die EKS-Add-on-Integration für ein vereinfachtes Lebenszyklusmanagement, Node Affinity-Unterstützung für eine detaillierte Planungssteuerung und ein verbessertes Ressourcen-Tagging ein. Bestehende HELM-basierte Installationen können mithilfe des mitgelieferten Migrationsskripts auf das EKS-Add-on migriert werden. Aktualisieren Sie vor dem Upgrade Ihre Ausführungsrolle „Inference Operator“ mit neuen Tagging-Berechtigungen.

Die wichtigsten Funktionen

EKS Add-on-Integration — Lebenszyklusmanagement auf Unternehmensniveau mit vereinfachter Installationserfahrung
Node Affinity — Präzise Planungssteuerung zum Ausschluss von Spot-Instances, zum Bevorzugen von Availability Zones oder zum Targeting von Knoten mit benutzerdefinierten Labels

Detaillierte Informationen, einschließlich Voraussetzungen, Upgrade-Anweisungen und Migrationshinweise, finden Sie in den folgenden Abschnitten.

Voraussetzungen

Vor dem Upgrade der Helm-Version auf 3.0 sollten Kunden ihrer Rolle als Inference-Operator Execution zusätzliche Tagging-Berechtigungen hinzufügen. Im Rahmen der Verbesserung von Ressourcen-Tagging und Sicherheit kennzeichnet der Inference Operator jetzt ALB-, S3- und ACM-Ressourcen. Für diese Erweiterung sind zusätzliche Berechtigungen in der Ausführungsrolle „Inference Operator“ erforderlich. Fügen Sie Ihrer Ausführungsrolle „Inference Operator“ die folgenden Berechtigungen hinzu:


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

Führen Sie ein Upgrade auf Version 3.0 durch

Wenn Sie den Inference Operator bereits über Helm installiert haben, verwenden Sie die folgenden Befehle für das Upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Migration von Helm zu EKS Add-Ons

Wenn Inference Operator vor Version 3.0 über Helm installiert wurde, empfehlen wir, zum EKS Add-on zu migrieren, um rechtzeitig über die neuen Funktionen informiert zu werden, die für Inference Operator veröffentlicht werden. Dieses Skript migriert den SageMaker HyperPod Inference Operator von der HELM-basierten Installation zur EKS-Add-On-Installation.

Überblick: Das Skript verwendet einen Clusternamen und eine Region als Parameter, ruft die bestehende Helm-Installationskonfiguration ab und migriert zur EKS-Add-on-Bereitstellung. Es erstellt neue IAM-Rollen für den Inference Operator, den ALB-Controller und den KEDA-Operator.

Vor der Migration des Inferenzoperators stellt das Skript sicher, dass die erforderlichen Abhängigkeiten (S3-CSI-Treiber, CSI-Treiber, Cert-Manager und FSx Metrics-Server) vorhanden sind. Wenn sie nicht existieren, werden sie als Add-on bereitgestellt.

Nach Abschluss der Migration des Inference Operator Add-ons migriert das Skript auch S3 und andere Abhängigkeiten (ALB FSx, KEDA, cert-manager, metrics-server), sofern sie ursprünglich über das Diagramm Inference Operator Helm installiert wurden. Verwenden Sie diese Option--skip-dependencies-migration, um diesen Schritt für den S3-CSI-Treiber, den CSI-Treiber, den Cert-Manager und den Metrics-Server zu überspringen. FSx Beachten Sie, dass ALB und KEDA als Teil des Add-ons im selben Namespace wie Inference Operator installiert werden und als Teil des Inference Operator Add-ons migriert werden.

Wichtig

Stellen Sie während der Migration keine neuen Modelle bereit, da diese erst bereitgestellt werden, wenn die Migration abgeschlossen ist. Sobald sich das Inference Operator Add-on im Status AKTIV befindet, können neue Modelle bereitgestellt werden. Die Migration dauert in der Regel 15 bis 20 Minuten und kann innerhalb von 30 Minuten abgeschlossen sein, wenn derzeit nur wenige Modelle eingesetzt werden.

Voraussetzungen für die Migration:

AWS CLI mit den entsprechenden Anmeldeinformationen konfiguriert
kubectl ist mit Zugriff auf Ihren EKS-Cluster konfiguriert
Helm installiert
Bestehende Helm-Installation von hyperpod-inference-operator

Anmerkung

Endgeräte, die bereits laufen, werden während des Migrationsprozesses nicht unterbrochen. Bestehende Endgeräte werden den Datenverkehr während der gesamten Migration weiterhin unterbrechungsfrei bereitstellen.

Abrufen des Migrationsskripts:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

Verwendung:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

Optionen:

--cluster-name NAME— Name des EKS-Clusters (erforderlich)
--region REGION— AWS Region (erforderlich)
--helm-namespace NAMESPACE— Namespace, in dem Helm Chart installiert ist (Standard: kube-system) (optional)
--s3-mountpoint-role-arn ARN— S3 Mountpoint CSI-Treiber, IAM-Rolle ARN (optional)
--fsx-role-arn ARN— IAM-Rolle ARN des FSx CSI-Treibers (optional)
--auto-approve— Überspringen Sie Bestätigungsaufforderungen, wenn dieses Flag aktiviert ist. step-by-stepund schließen auto-approve sich gegenseitig aus, falls --auto-approve angegeben, bitte nicht angeben --step-by-step (optional)
--step-by-step— Machen Sie nach jedem wichtigen Schritt eine Pause zur Überprüfung. Dies sollte nicht erwähnt werden, wenn --auto-approve es bereits hinzugefügt wurde (optional)
--skip-dependencies-migration— Überspringt die Migration der von HELM installierten Abhängigkeiten zum Add-on. Denn Abhängigkeiten wurden NICHT über das Inference Operator Helm-Diagramm installiert, oder wenn Sie sie separat verwalten möchten. (optional)

Beispiele:

Grundlegende Migration (migriert Abhängigkeiten):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Automatische Genehmigung ohne Eingabeaufforderungen:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

Überspringen Sie die Abhängigkeitsmigration für FSx S3-Mountpoint, Cert Manager und Metrics-Server:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

Stellen Sie bestehende S3- und FSx IAM-Rollen bereit:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Backup-Speicherort:

Backups werden gespeichert in /tmp/hyperpod-migration-backup-<timestamp>/

Backups ermöglichen eine sichere Migration und Wiederherstellung:

Rollback bei einem Fehler — Wenn die Migration fehlschlägt, kann das Skript Ihren Cluster mithilfe der gesicherten Konfigurationen automatisch auf den Zustand vor der Migration zurücksetzen
Audit Trail — Bietet eine vollständige Aufzeichnung dessen, was vor der Migration vorhanden war, zur Problembehandlung und Einhaltung von Vorschriften
Konfigurationsreferenz — Ermöglicht den Vergleich von Konfigurationen vor und nach der Migration
Manuelle Wiederherstellung — Bei Bedarf können Sie bestimmte Ressourcen aus dem Backup-Verzeichnis manuell überprüfen und wiederherstellen

Rollback:

Wenn die Migration fehlschlägt, fordert das Skript den Benutzer zur Bestätigung auf, bevor ein Rollback initiiert wird, um den vorherigen Status wiederherzustellen.

SageMaker HyperPod Versionshinweise zu Inference: v2.3

Was ist neu

In dieser Version werden neue optionale Felder in den benutzerdefinierten Ressourcendefinitionen (CRDs) eingeführt, um die Flexibilität der Bereitstellungskonfiguration zu erhöhen.

Funktionen

Typen mit mehreren Instanzen
- Verbesserte Zuverlässigkeit bei der Bereitstellung — Unterstützt Konfigurationen mit mehreren Instanzen mit automatischem Failover auf alternative Instance-Typen, wenn die bevorzugten Optionen nicht genügend Kapazität haben
- Intelligente Ressourcenplanung — Nutzt die Kubernetes-Knotenaffinität, um Instanztypen zu priorisieren und gleichzeitig die Bereitstellung zu gewährleisten, auch wenn bevorzugte Ressourcen nicht verfügbar sind
- Optimierte Kosten und Leistung — Behält Ihre Instance-Typpräferenzen bei und verhindert kapazitätsbedingte Ausfälle bei Cluster-Fluktuationen

Fehlerbehebungen

Änderungen am Feld invocationEndpoint in der Spezifikation von InferenceEndpointConfig werden nun wirksam:

Wenn das invocationEndpoint Feld gepatcht oder aktualisiert wird, werden abhängige Ressourcen wie Load Balancer und SageMaker Endpoint mit der Normalisierung aktualisiert. Ingress SageMakerEndpointRegistration
Der invocationEndpoint angegebene Wert wird unverändert in der Spezifikation selbst gespeichert. InferenceEndpointConfig Wenn dieser Wert verwendet wird, um einen Load Balancer und — falls aktiviert — einen SageMaker Endpoint zu erstellen, wird er normalisiert, sodass er einen vorangestellten Schrägstrich hat.
- v1/chat/completionswird /v1/chat/completions für AWS Load Balancer und SageMaker Endpoint normalisiert. Ingress Für den SageMakerEndpointRegistration wird es in seiner Spezifikation als angezeigt. v1/chat/completions
- ///invokewird /invoke für AWS Load Balancer und SageMaker Endpoint normalisiert. Ingress Für den SageMakerEndpointRegistration wird es in seiner Spezifikation als angezeigt. invoke

Helm installieren:

Folgen Sie: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Wenn Sie sich darauf konzentrieren, nur den Inferenzoperator zu installieren, tun Sie dies nach Schritt 1 Set Up Your Helm Environment also. cd HyperPodHelmChart/charts/inference-operator Da Sie sich im Verzeichnis der Inferenzoperatordiagramme selbst befinden, ersetzen Sie in den Befehlen, wo immer Sie sie sehenhelm_chart/HyperPodHelmChart, durch. .

Führen Sie ein Upgrade von Operator auf Version 2.3 durch, falls es bereits installiert ist:


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fehlerbehebung

HyperPod im Studio