Note sulla versione di Amazon SageMaker HyperPod Inference - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note sulla versione di Amazon SageMaker HyperPod Inference

Questo argomento tratta le note di rilascio che tengono traccia di aggiornamenti, correzioni e nuove funzionalità per Amazon SageMaker HyperPod Inference. SageMaker HyperPod Inference ti consente di distribuire e scalare modelli di machine learning sui tuoi HyperPod cluster con un'affidabilità di livello aziendale. Per le versioni, gli aggiornamenti e i miglioramenti generali della SageMaker HyperPod piattaforma Amazon, consultaNote di SageMaker HyperPod rilascio di Amazon.

Per informazioni sulle funzionalità di SageMaker HyperPod inferenza e sulle opzioni di distribuzione, consultaImplementazione di modelli su Amazon SageMaker HyperPod.

SageMaker HyperPod Note sulla versione di Inference: v3.0

Data di uscita: 23 febbraio 2026

Riepilogo

Inference Operator 3.0 introduce l'integrazione del componente aggiuntivo EKS per una gestione semplificata del ciclo di vita, il supporto Node Affinity per il controllo granulare della pianificazione e una migliore etichettatura delle risorse. Le installazioni esistenti basate su Helm possono essere migrate al componente aggiuntivo EKS utilizzando lo script di migrazione fornito. Aggiorna il tuo ruolo di esecuzione di Inference Operator con nuove autorizzazioni di tagging prima dell'aggiornamento.

Caratteristiche principali

  • EKS Add-on Integration: gestione del ciclo di vita di livello aziendale con esperienza di installazione semplificata

  • Node Affinity: controllo granulare della pianificazione per escludere le istanze spot, preferire le zone di disponibilità o indirizzare i nodi con etichette personalizzate

Per informazioni dettagliate, tra cui prerequisiti, istruzioni di aggiornamento e linee guida sulla migrazione, consulta le sezioni seguenti.

Prerequisiti

Prima di aggiornare la versione Helm alla 3.0, i clienti devono aggiungere ulteriori autorizzazioni di tagging al proprio ruolo di operatore di esecuzione di Inference. Nell'ambito del miglioramento della codifica e della sicurezza delle risorse, Inference Operator ora tagga le risorse ALB, S3 e ACM. Questo miglioramento richiede autorizzazioni aggiuntive nel ruolo di esecuzione di Inference Operator. Aggiungi le seguenti autorizzazioni al tuo ruolo di esecuzione Inference Operator:

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

Aggiornamento alla versione 3.0

Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Migrazione del componente aggiuntivo da Helm a EKS

Se Inference operator è installato tramite Helm prima della versione 3.0, consigliamo di migrare a EKS Add-on per ottenere aggiornamenti tempestivi sulle nuove funzionalità che verranno rilasciate per Inference Operator. Questo script migra l' SageMaker HyperPod Inference Operator dall'installazione basata su Helm all'installazione del componente aggiuntivo EKS.

Panoramica: lo script accetta un nome e una regione del cluster come parametri, recupera la configurazione di installazione di Helm esistente e migra alla distribuzione di EKS Add-on. Crea nuovi ruoli IAM per Inference Operator, ALB Controller e KEDA Operator.

Prima di migrare l'Inference Operator, lo script garantisce l'esistenza delle dipendenze richieste (driver CSI S3, driver CSI, cert-manager e FSx metrics-server). Se non esistono, li distribuisce come componenti aggiuntivi.

Una volta completata la migrazione del componente aggiuntivo Inference Operator, lo script migra anche S3 e altre dipendenze (ALB FSx, KEDA, cert-manager, metrics-server) se originariamente installate tramite il grafico Inference Operator Helm. Utilizzatelo per saltare questo passaggio per il driver S3 --skip-dependencies-migration CSI, il driver CSI, il cert-manager e il metrics-server. FSx Tieni presente che ALB e KEDA vengono installati come parte del componente aggiuntivo nello stesso spazio dei nomi di Inference Operator e verranno migrati come parte del componente aggiuntivo Inference Operator.

Importante

Durante la migrazione, non distribuite nuovi modelli poiché non verranno distribuiti fino al completamento della migrazione. Una volta che il componente aggiuntivo Inference Operator è in stato ATTIVO, è possibile implementare nuovi modelli. Il tempo di migrazione richiede in genere da 15 a 20 minuti e può essere completata entro 30 minuti se al momento sono installati solo pochi modelli.

Prerequisiti per la migrazione:

  • AWS CLI configurato con credenziali appropriate

  • kubectl configurato con accesso al tuo cluster EKS

  • Helm installato

  • Installazione Helm esistente di hyperpod-inference-operator

Nota

Gli endpoint già in esecuzione non verranno interrotti durante il processo di migrazione. Gli endpoint esistenti continueranno a servire il traffico senza interruzioni durante tutta la migrazione.

Ottenere lo script di migrazione:

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

Utilizzo:

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

Opzioni:

  • --cluster-name NAME— nome del cluster EKS (richiesto)

  • --region REGION— AWS regione (richiesto)

  • --helm-namespace NAMESPACE— Namespace in cui è installato Helm chart (impostazione predefinita: kube-system) (opzionale)

  • --s3-mountpoint-role-arn ARN— ARN del ruolo IAM del driver S3 Mountpoint CSI (opzionale)

  • --fsx-role-arn ARN— ARN del ruolo IAM del driver FSx CSI (opzionale)

  • --auto-approve— Ignora le richieste di conferma se questo flag è abilitato. step-by-stepe auto-approve si escludono a vicenda, se fornite, --auto-approve non specificate (opzionale) --step-by-step

  • --step-by-step— Fai una pausa dopo ogni passaggio principale per la revisione. Questo non dovrebbe essere menzionato se --auto-approve è già stato aggiunto (opzionale)

  • --skip-dependencies-migration— Salta la migrazione delle dipendenze installate da Helm su Add-on. Perché le dipendenze NON sono state installate tramite il grafico Inference Operator Helm o se si desidera gestirle separatamente. (opzionale)

Esempi:

Migrazione di base (migra le dipendenze):

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

Approvazione automatica senza richieste:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

Salta la migrazione delle dipendenze per S3 mountpoint FSx, cert manager e Metrics server:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

Fornisci ruoli S3 e IAM esistenti: FSx

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Posizione di backup:

I backup sono archiviati in /tmp/hyperpod-migration-backup-<timestamp>/

I backup consentono la migrazione e il ripristino sicuri:

  • Rollback in caso di errore: se la migrazione fallisce, lo script può ripristinare automaticamente il cluster allo stato precedente alla migrazione utilizzando le configurazioni di backup

  • Audit Trail: fornisce una registrazione completa di ciò che esisteva prima della migrazione per la risoluzione dei problemi e la conformità

  • Riferimento alla configurazione: consente di confrontare le configurazioni precedenti e successive alla migrazione

  • Ripristino manuale: se necessario, è possibile ispezionare e ripristinare manualmente risorse specifiche dalla directory di backup

Ripristino:

Se la migrazione fallisce, lo script richiede la conferma dell'utente prima di avviare il rollback per ripristinare lo stato precedente.

SageMaker HyperPod Note sulla versione di Inference: v2.3

Cosa c'è di nuovo

Questa versione introduce nuovi campi opzionali nelle Custom Resource Definitions (CRDs) per migliorare la flessibilità di configurazione della distribuzione.

Funzionalità

  • Tipi di istanze multiple

    • Maggiore affidabilità di implementazione: supporta configurazioni di tipo multiistanza con failover automatico su tipi di istanza alternativi quando le opzioni preferite non dispongono di capacità

    • Pianificazione intelligente delle risorse: utilizza l'affinità dei nodi Kubernetes per dare priorità ai tipi di istanze garantendo al contempo l'implementazione anche quando le risorse preferite non sono disponibili

    • Costi e prestazioni ottimizzati: mantiene le preferenze relative al tipo di istanza e previene i guasti legati alla capacità durante le fluttuazioni del cluster

Correzioni di bug

Le modifiche al campo invocationEndpoint nelle specifiche di ora avranno effetto: InferenceEndpointConfig

  • Se il invocationEndpoint campo è patchato o aggiornato, le risorse dipendenti, come Load Balancer SageMaker ed EndpointSageMakerEndpointRegistration, verranno aggiornate con la normalizzazione. Ingress

  • Il valore invocationEndpoint fornito verrà memorizzato così com'è nelle specifiche stesse. InferenceEndpointConfig Quando questo valore viene utilizzato per creare un Load Balancer e, se abilitato, un SageMaker Endpoint, verrà normalizzato in modo da avere una barra anteriore.

    • v1/chat/completionsverrà normalizzato a /v1/chat/completions for theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come. v1/chat/completions

    • ///invokeverrà normalizzato a /invoke for theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come. invoke

Installazione di Helm:

Segui: https://github.com/aws/sagemaker-hyperpod-cli/_chart tree/main/helm

Se ti concentri solo sull'installazione dell'operatore di inferenza, dopo il passaggio 1, ad esempioSet Up Your Helm Environment, fallo. cd HyperPodHelmChart/charts/inference-operator Poiché ti trovi nella stessa directory del grafico degli operatori di inferenza, nei comandi, ovunque tu vedahelm_chart/HyperPodHelmChart, sostituisci con. .

Aggiorna Operator alla versione 2.3 nel caso in cui sia già installato:

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3