Crear un clúster de HyperPod EKS con un grupo de instancias restringido (RIG) - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear un clúster de HyperPod EKS con un grupo de instancias restringido (RIG)

En este tema se describen los pasos para crear un clúster de Amazon SageMaker HyperPod EKS con un grupo de instancias restringido (RIG). Una configuración RIG en clústeres SageMaker HyperPod EKS proporciona un entorno especializado para entrenar modelos de Amazon Nova. RIG tiene las siguientes restricciones:

  • Las cargas de trabajo de RIG se ejecutan en una VPC sin conexión a Internet, y todas las entradas y salidas están estrictamente reguladas.

  • RIG restringe la observabilidad de las funciones de Kubernetes, como la ejecución y los registros de Kubectl, a fin de garantizar un entorno seguro para la formación de modelos Nova.

  • RIG solo permite la personalización de imágenes de Nova y se rechazarán los trabajos que se ejecuten con otras imágenes.

Puedes crearlos RIGs al configurar grupos de instancias en tu clúster de HyperPod EKS. Si bien puedes controlar el tamaño y la escala de estos recursos, no puedes acceder directamente a los nodos de trabajo. Esta arquitectura garantiza que solo se pueda acceder a los componentes de Nova (pesos de los modelos, puntos de control, datos de entrenamiento y código) a través de canales regulados y un sistema de cuentas gestionado por el servicio.

La personalización del modelo Nova SageMaker HyperPod se basa en un servicio gestionado FSx para que el sistema de archivos Lustre logre un rendimiento óptimo. Al crear un RIG, debes especificar el tamaño del volumen y el rendimiento del FSx sistema de archivos de Lustre, que se montará en todos los nodos de trabajo del grupo de instancias. FSx for Lustre se utiliza para almacenar puntos de control intermedios y estados de modelos internos durante el entrenamiento distribuido. Siga las instrucciones que se proporcionan en la receta para elegir un tamaño de volumen y un rendimiento adecuados para garantizar una capacidad y un rendimiento suficientes. FSx para Lustre, los costos de uso se aplicarán a su. Cuenta de AWS

Notas importantes sobre RIG en clústeres de HyperPod EKS

  • RIG solo admite el uso de la función de ejecución para los permisos. Asegúrese de que la función de ejecución incluya los permisos de IAM necesarios, como el acceso a Amazon S3.

  • Cuando utilice Amazon FSx for Lustre y Amazon S3 gestionados por servicios, asegúrese de que su sistema de archivos FSx for Lustre tenga el tamaño adecuado para su carga de trabajo. El manifiesto de datos de entrenamiento se carga en Amazon S3, al que debe poder acceder el rol de ejecución.

  • El RIG debe crearse o actualizarse en un nuevo clúster de SageMaker HyperPod EKS específico, uno creado a partir del 16 de julio de 2025. Los clústeres creados antes de esta fecha pueden contener versiones de software o configuraciones incompatibles que RIG no admite.

Cree un clúster HyperPod EKS con RIG (consola)

Siga estas instrucciones para crear un clúster HyperPod EKS con un RIG mediante la HyperPod consola.

Cree un clúster HyperPod EKS con RIG (CLI)

Siga estas instrucciones para crear un clúster de HyperPod EKS con un RIG mediante el AWS CLI.