SageMaker HyperPod

SageMaker HyperPod le ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de aprendizaje automático (ML) y desarrollar state-of-the-art modelos como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos básicos (FM). Acelera el desarrollo de las máquinas virtuales al eliminar el trabajo pesado e indiferenciado que supone crear y mantener clústeres de cómputo a gran escala alimentados por miles de aceleradores, como AWS Trainium y las unidades de procesamiento gráfico (GPU) NVIDIA A100 y H100. Cuando los aceleradores fallan, los clústeres que se reparan automáticamente detectan y sustituyen automáticamente el hardware defectuoso sobre la marcha para que pueda centrarse en ejecutar cargas de trabajo de aprendizaje automático durante semanas y meses sin interrupciones. Además, con SageMaker HyperPod, puede personalizar su entorno informático para que se adapte mejor a sus necesidades y configurarlo con las bibliotecas de formación SageMaker distribuidas de Amazon para lograr un rendimiento óptimo AWS.

Clústeres operativos

Puede crear, configurar y mantener SageMaker HyperPod clústeres de forma gráfica a través de la interfaz de usuario (UI) de la consola y mediante programación a través de la interfaz de línea de AWS comandos (CLI) o. AWS SDK for Python (Boto3) Con Amazon VPC, puede proteger la red de clústeres y, además, aprovechar la configuración del clúster con los recursos de la VPC, como Amazon FSx for Lustre, que ofrece el rendimiento más rápido. También puede asignar diferentes funciones de IAM a los grupos de instancias del clúster y limitar las acciones que los usuarios y los recursos del clúster pueden llevar a cabo. Para obtener más información, consulte Operar SageMaker HyperPod.

Configurar tu entorno de aprendizaje automático

SageMaker HyperPod ejecutaSageMaker HyperPod DLAMI, lo que configura un entorno de aprendizaje automático en los HyperPod clústeres. Puede configurar personalizaciones adicionales para la DLAMI proporcionando scripts de ciclo de vida que respalden su caso de uso. Para obtener más información sobre cómo configurar los scripts de ciclo de vida, consulte y. Empezar con SageMaker HyperPod SageMaker HyperPod prácticas recomendadas de configuración del ciclo de vida

Programar trabajos

Una vez creado correctamente un HyperPod clúster, los usuarios del clúster pueden iniciar sesión en los nodos del clúster (como el nodo principal o controlador, el nodo de inicio de sesión y el nodo de trabajo) y programar tareas para ejecutar cargas de trabajo de aprendizaje automático. Para obtener más información, consulte Ejecute trabajos en SageMaker HyperPod clústeres.

Resiliencia frente a los fallos de hardware

SageMaker HyperPod ejecuta comprobaciones de estado en los nodos del clúster y proporciona una funcionalidad de reanudación automática de la carga de trabajo. Con las funciones de resiliencia de los clústeres HyperPod, puede reanudar la carga de trabajo desde el último punto de control que haya guardado, después de reemplazar los nodos defectuosos por otros en buen estado en los clústeres de más de 16 nodos. Para obtener más información, consulte SageMaker HyperPod resiliencia de clústeres.

Registro y administración de clústeres

Puedes encontrar métricas de uso de SageMaker HyperPod recursos y registros del ciclo de vida en Amazon CloudWatch y gestionar SageMaker HyperPod los recursos etiquetándolos. Cada ejecución CreateCluster de la API crea un flujo de registro distinto, cuyo <cluster-name>-<timestamp> formato se denomina. En el flujo de registro, puede comprobar los nombres de los hosts, el nombre de los scripts del ciclo de vida fallidos y los resultados de los scripts fallidos, como stdout ystderr. Para obtener más información, consulte SageMaker HyperPod administración de clústeres.

Compatible con SageMaker herramientas

Con él SageMaker HyperPod, puede configurar clústeres con las bibliotecas de comunicaciones colectivas AWS optimizadas que ofrece SageMaker, como la biblioteca de paralelismo de datos SageMaker distribuido (SMDDP). La biblioteca SMDDP implementa la AllGather operación optimizada para la infraestructura AWS informática y de red para las instancias de aprendizaje SageMaker automático de mayor rendimiento equipadas con las GPU NVIDIA A100. Para obtener más información, consulte Ejecute cargas de trabajo de formación distribuidas con Slurm activado SageMaker HyperPod.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Proporcione a los usuarios acceso a imágenes personalizadas

Requisitos previos