Notas de la versión SageMaker HyperPod de Amazon Inference

En este tema se tratan las notas de la versión que hacen un seguimiento de las actualizaciones, correcciones y nuevas funciones de Amazon SageMaker HyperPod Inference. SageMaker HyperPod La inferencia le permite implementar y escalar modelos de aprendizaje automático en sus HyperPod clústeres con una confiabilidad de nivel empresarial. Para ver las versiones, actualizaciones y mejoras generales de la SageMaker HyperPod plataforma Amazon, consulteNotas de SageMaker HyperPod lanzamiento de Amazon.

Para obtener información sobre las capacidades de SageMaker HyperPod inferencia y las opciones de implementación, consulteImplementación de modelos en Amazon SageMaker HyperPod.

SageMaker HyperPod Notas de la versión de inferencia: v3.0

Fecha de lanzamiento: 23 de febrero de 2026

Resumen

Inference Operator 3.0 presenta la integración del complemento EKS para simplificar la gestión del ciclo de vida, la compatibilidad con Node Affinity para un control detallado de la programación y un etiquetado de recursos mejorado. Las instalaciones existentes basadas en Helm se pueden migrar al complemento EKS mediante el script de migración proporcionado. Actualice su función de ejecución de operador de inferencia con nuevos permisos de etiquetado antes de realizar la actualización.

Características principales

Integración complementaria de EKS: gestión del ciclo de vida empresarial con una experiencia de instalación simplificada
Node Affinity: control de programación detallado para excluir instancias puntuales, preferir zonas de disponibilidad o segmentar nodos con etiquetas personalizadas

Para obtener información detallada, incluidos los requisitos previos, las instrucciones de actualización y la guía de migración, consulte las secciones siguientes.

Requisitos previos

Antes de actualizar la versión de Helm a la 3.0, los clientes deben añadir permisos de etiquetado adicionales a su función de operador de inferencias. Como parte de la mejora del etiquetado y la seguridad de los recursos, el operador de inferencia ahora etiqueta los recursos de ALB, S3 y ACM. Esta mejora requiere permisos adicionales en la función de ejecución del operador de inferencia. Añada los siguientes permisos a su función de ejecución de operador de inferencia:


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

Actualice a la versión 3.0

Si ya tiene el operador de inferencia instalado mediante Helm, utilice los siguientes comandos para realizar la actualización:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Migración del complemento Helm a EKS

Si el operador de inferencia se instaló a través de Helm antes de la versión 3.0, recomendamos migrar al complemento EKS para obtener actualizaciones oportunas sobre las nuevas funciones que se lanzarán para Inference Operator. Este script migra el operador de SageMaker HyperPod inferencia de una instalación basada en Helm a una instalación del complemento EKS.

Descripción general: el script toma como parámetros el nombre y la región del clúster, recupera la configuración de instalación de Helm existente y migra a la implementación del complemento EKS. Crea nuevas funciones de IAM para el operador de inferencia, el controlador ALB y el operador KEDA.

Antes de migrar el operador de inferencia, el script garantiza que existan las dependencias necesarias (controlador S3 CSI, controlador CSI, administrador de certificados y servidor de FSx métricas). Si no existen, las implementa como complemento.

Una vez completada la migración del complemento Inference Operator, el script también migra S3 y otras dependencias (ALB FSx, KEDA, cert-manager, metrics-server) si se instalaron originalmente mediante el diagrama Helm del operador de inferencia. Úselo --skip-dependencies-migration para omitir este paso para el controlador CSI de S3, el controlador CSI, el administrador de certificados y el servidor de métricas. FSx Tenga en cuenta que ALB y KEDA se instalan como parte del complemento en el mismo espacio de nombres que Inference Operator y se migrarán como parte del complemento Inference Operator.

importante

Durante la migración, no implemente modelos nuevos, ya que no se implementarán hasta que se complete la migración. Una vez que el complemento Inference Operator esté en estado ACTIVO, se podrán implementar nuevos modelos. El tiempo de migración suele tardar entre 15 y 20 minutos y puede completarse en 30 minutos si actualmente solo se implementan unos pocos modelos.

Requisitos previos de migración:

AWS CLI configurado con las credenciales adecuadas
kubectl configurado con acceso a su clúster de EKS
Helm instalado
Instalación de Helm existente de hyperpod-inference-operator

nota

Los puntos finales que ya estén en funcionamiento no se interrumpirán durante el proceso de migración. Los puntos finales existentes seguirán atendiendo el tráfico sin interrupciones durante la migración.

Obtener el script de migración:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

Uso:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

Opciones:

--cluster-name NAME— Nombre del clúster de EKS (obligatorio)
--region REGION— AWS región (obligatorio)
--helm-namespace NAMESPACE— Espacio de nombres donde está instalado Helm Chart (predeterminado: kube-system) (opcional)
--s3-mountpoint-role-arn ARN— Rol de IAM ARN del controlador CSI Mountpoint de S3 (opcional)
--fsx-role-arn ARN— ARN FSx del rol de IAM del controlador CSI (opcional)
--auto-approve— Omite las solicitudes de confirmación si este indicador está activado. step-by-stepy auto-approve se excluyen mutuamente; si --auto-approve se proporciona, no especifique --step-by-step (opcional)
--step-by-step— Haga una pausa después de cada paso principal para revisarla. Esto no debe mencionarse si ya --auto-approve está agregado (opcional)
--skip-dependencies-migration— Omita la migración de las dependencias instaladas en Helm al complemento. Pues las dependencias NO se instalaron mediante el diagrama Helm del operador de inferencia o si desea administrarlas por separado. (opcional)

Ejemplos:

Migración básica (migra las dependencias):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Aprobación automática sin solicitudes:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

Omita la migración de dependencias para el punto de montaje S3 FSx, el administrador de certificados y el servidor Metrics:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

Proporcione las funciones de S3 e FSx IAM existentes:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Ubicación de Backup:

Las copias de seguridad se almacenan en /tmp/hyperpod-migration-backup-<timestamp>/

Las copias de seguridad permiten una migración y una recuperación seguras:

Reversión en caso de error: si la migración falla, el script puede restaurar automáticamente el clúster a su estado anterior a la migración utilizando las configuraciones respaldadas
Registro de auditoría: proporciona un registro completo de lo que existía antes de la migración para la resolución de problemas y el cumplimiento
Referencia de configuración: permite comparar las configuraciones previas y posteriores a la migración
Recuperación manual: si es necesario, puede inspeccionar y restaurar manualmente recursos específicos del directorio de respaldo

Reversión:

Si la migración falla, el script solicita la confirmación del usuario antes de iniciar la reversión para restaurar el estado anterior.

SageMaker HyperPod Notas de la versión de inferencia: v2.3

Novedades

Esta versión introduce nuevos campos opcionales en las definiciones de recursos personalizadas (CRDs) para mejorar la flexibilidad de la configuración de la implementación.

Características

Tipos de instancias múltiples
- Fiabilidad de implementación mejorada: admite configuraciones de varios tipos de instancia con conmutación por error automática a tipos de instancias alternativos cuando las opciones preferidas carecen de capacidad
- Programación inteligente de recursos: utiliza la afinidad de nodos de Kubernetes para priorizar los tipos de instancias y, al mismo tiempo, garantiza la implementación incluso cuando los recursos preferidos no están disponibles
- Coste y rendimiento optimizados: mantiene sus preferencias de tipo de instancia y evita los fallos relacionados con la capacidad durante las fluctuaciones del clúster

Correcciones de errores

Los cambios invocationEndpoint en el campo de la especificación InferenceEndpointConfig entrarán ahora en vigor:

Si el invocationEndpoint campo está parcheado o actualizado, los recursos dependientes, como el Ingress Load Balancer SageMaker y el EndpointSageMakerEndpointRegistration, se actualizarán con la normalización.
El valor invocationEndpoint proporcionado se almacenará tal cual en la propia especificación. InferenceEndpointConfig Cuando este valor se utilice para crear un Load Balancer y, si está activado, un SageMaker Endpoint, se normalizará para tener una barra diagonal inicial.
- v1/chat/completionsse normalizará /v1/chat/completions para AWS Load Balancer y Endpoint. Ingress SageMaker En el caso deSageMakerEndpointRegistration, se mostrará en sus especificaciones como. v1/chat/completions
- ///invokese normalizará /invoke para AWS Load Balancer y Endpoint. Ingress SageMaker En el caso deSageMakerEndpointRegistration, se mostrará en sus especificaciones como. invoke

Instalación de Helm:

Siga: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Si está centrado en instalar únicamente el operador de inferencia, después del paso 1, es decirSet Up Your Helm Environment, hágalo. cd HyperPodHelmChart/charts/inference-operator Como se encuentra en el propio directorio de diagramas de operadores de inferencia, en los comandos, donde quiera que lo veahelm_chart/HyperPodHelmChart, reemplace con. .

Actualice Operator a la versión 2.3 en caso de que ya esté instalado:


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Resolución de problemas

HyperPod en Studio