Organización de SageMaker HyperPod clústeres con Amazon EKS - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Organización de SageMaker HyperPod clústeres con Amazon EKS

SageMaker HyperPod es un servicio SageMaker gestionado por IA que permite el entrenamiento a gran escala de modelos básicos en clústeres de cómputo resilientes y de larga duración, integrándose con Amazon EKS para organizar los recursos de cómputo. HyperPod Puede ejecutar tareas de formación ininterrumpidas que abarquen semanas o meses a gran escala utilizando clústeres de Amazon EKS con características de HyperPod resiliencia que comprueban diversos fallos de hardware y recuperan automáticamente los nodos defectuosos.

Entre las principales características para los usuarios administradores de clústeres se incluyen las siguientes.

Para los usuarios de científicos de datos, el soporte de EKS permite lo siguiente HyperPod .

  • Ejecutar cargas de trabajo en contenedores para entrenar los modelos básicos en el clúster HyperPod

  • Ejecutar inferencias en el clúster de EKS y aprovechar la integración entre EKS HyperPod

  • Aprovechar la capacidad de reanudación automática del trabajo para la formación de Kubeflow PyTorch () PyTorchJob

nota

Amazon EKS permite la organización de tareas e infraestructura gestionada por los usuarios SageMaker HyperPod a través del plano de control de Amazon EKS. Asegúrese de que el acceso de los usuarios al clúster a través del punto final del servidor API de Kubernetes siga el principio del mínimo privilegio y de que la salida de la red del clúster sea segura. HyperPod

Para obtener más información sobre cómo proteger el acceso al servidor de API de Amazon EKS, consulte Controlar el acceso de la red al punto final del servidor de API del clúster.

Para obtener más información sobre cómo proteger el acceso a la red HyperPod, consulteConfiguración SageMaker HyperPod con tu Amazon VPC.

La arquitectura de alto nivel del soporte de Amazon EKS HyperPod implica un mapeo 1 a 1 entre un clúster de EKS (plano de control) y un HyperPod clúster (nodos de trabajo) dentro de una VPC, como se muestra en el siguiente diagrama.

EKS and HyperPod VPC architecture with control plane, clúster nodes, and Servicios de AWS.