Notas de SageMaker HyperPod lanzamiento de Amazon - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de SageMaker HyperPod lanzamiento de Amazon

Consulta las siguientes notas de la versión para hacer un seguimiento de las últimas actualizaciones de Amazon SageMaker HyperPod.

SageMaker HyperPod notas de lanzamiento: 20 de junio de 2024

Nuevas características

  • Se agregó una nueva capacidad para adjuntar almacenamiento adicional a las instancias SageMaker HyperPod del clúster. Con esta capacidad, puedes configurar el almacenamiento adicional en el nivel de configuración del grupo de instancias durante los procesos de creación o actualización del clúster, ya sea a través de la SageMaker HyperPod consola o de UpdateClusterlas API CreateClustery. El volumen de EBS adicional se adjunta a cada instancia de un SageMaker HyperPod clúster y se monta en él. /opt/sagemaker Para obtener más información sobre cómo implementarlo en su SageMaker HyperPod clúster, consulte la documentación actualizada en las páginas siguientes.

    Tenga en cuenta que debe actualizar el software del HyperPod clúster para utilizar esta capacidad. Después de aplicar los parches al software de HyperPod clústeres, puedes utilizar esta capacidad para SageMaker HyperPod los clústeres existentes creados antes del 20 de junio de 2024 añadiendo nuevos grupos de instancias. Esta capacidad es totalmente efectiva para cualquier SageMaker HyperPod clúster creado después del 20 de junio de 2024.

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la API de UpdateClustersoftware y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Tenga en cuenta que debe ejecutar el AWS CLI comando para actualizar el clúster HyperPod . La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

SageMaker HyperPod notas de lanzamiento: 24 de abril de 2024

Correcciones de errores

  • Se ha corregido un error con el ThreadsPerCore parámetro de la ClusterInstanceGroupSpecificationAPI. Con esta corrección, las UpdateClusterAPI CreateClustery las API reciben y aplican correctamente las entradas del usuarioThreadsPerCore. Esta corrección es efectiva en HyperPod los clústeres creados después del 24 de abril de 2024. Si ha tenido problemas con este error y desea aplicar esta corrección a su clúster, debe crear uno nuevo. Asegúrate de hacer copias de seguridad del trabajo y restaurarlo mientras te mueves a un clúster nuevo siguiendo las instrucciones que se indican enUtilice el script de respaldo proporcionado por SageMaker HyperPod.

SageMaker HyperPod notas de lanzamiento: 27 de marzo de 2024

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.

  • En esta versión de la HyperPod DLAMI, Slurm está creado con el servicio REST slurmestd () con soporte para JSON, YAML y JWT.

  • Se actualizó Slurm a la versión 23.11.3

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la API de UpdateClustersoftware y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Tenga en cuenta que debe ejecutar el AWS CLI comando para actualizar el clúster HyperPod . La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

Mejoras

  • Se aumentó el tiempo de espera del servicio de reanudación automática a 60 minutos.

  • Se mejoró el proceso de reemplazo de instancias para no reiniciar el controlador Slurm.

  • Se han mejorado los mensajes de error al ejecutar scripts de ciclo de vida, como los errores de descarga y los errores de comprobación del estado de la instancia al iniciar la instancia.

Correcciones de errores

  • Se ha corregido un error en el servicio Chrony que provocaba un problema con la sincronización horaria.

  • Se ha corregido un error con el análisisslurm.conf.

  • Se ha corregido un problema con la go-dcgm biblioteca de NVIDIA.

SageMaker HyperPod notas de lanzamiento: 14 de marzo de 2024

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la API de UpdateClustersoftware y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Tenga en cuenta que debe ejecutar el AWS CLI comando para actualizar el clúster HyperPod . La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

Mejoras

SageMaker HyperPod notas de lanzamiento: 15 de febrero de 2024

Nuevas características

  • Se agregó una nueva UpdateClusterSoftware API para la aplicación SageMaker HyperPod de parches de seguridad. Cuando los parches de seguridad estén disponibles, te recomendamos que actualices SageMaker HyperPod los clústeres existentes en tu cuenta aws sagemaker update-cluster-software --cluster-name your-cluster-name ejecutándolos. Para hacer un seguimiento de los futuros parches de seguridad, sigue consultando esta página de notas SageMaker HyperPod de lanzamiento de Amazon. Para obtener información sobre cómo funciona la UpdateClusterSoftware API, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

SageMaker HyperPod notas de publicación: 29 de noviembre de 2023

Nuevas características

  • Lanzó Amazon SageMaker HyperPod en AWS re:Invent 2023.

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.

  • Basado en la AMI de GPU AWS Deep Learning Base (Ubuntu 20.04) lanzada el 18 de octubre de 2020

  • Una lista completa de los paquetes preinstalados en esta HyperPod DLAMI además de la AMI básica

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática