Note di SageMaker HyperPod rilascio di Amazon - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note di SageMaker HyperPod rilascio di Amazon

Consulta le seguenti note di rilascio per tenere traccia degli ultimi aggiornamenti per Amazon SageMaker HyperPod.

SageMaker HyperPod note di rilascio: 20 giugno 2024

Nuove funzionalità

  • È stata aggiunta una nuova funzionalità di collegamento di storage aggiuntivo alle istanze SageMaker HyperPod del cluster. Con questa funzionalità, è possibile configurare lo storage supplementare a livello di configurazione del gruppo di istanze durante i processi di creazione o aggiornamento del cluster, tramite la SageMaker HyperPod console o le CreateClusterAPI and. UpdateCluster Il volume EBS aggiuntivo è collegato a ciascuna istanza all'interno di un SageMaker HyperPod cluster e montato su. /opt/sagemaker Per ulteriori informazioni sulla sua implementazione nel SageMaker HyperPod cluster, consulta la documentazione aggiornata nelle pagine seguenti.

    Tieni presente che è necessario aggiornare il software del HyperPod cluster per utilizzare questa funzionalità. Dopo aver applicato le patch al software del HyperPod cluster, è possibile utilizzare questa funzionalità per SageMaker HyperPod i cluster esistenti creati prima del 20 giugno 2024 aggiungendo nuovi gruppi di istanze. Questa funzionalità è pienamente efficace per tutti i SageMaker HyperPod cluster creati dopo il 20 giugno 2024.

Fasi di aggiornamento

  • Esegui il comando seguente per chiamare l'API del UpdateClustersoftware per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta. Aggiorna il software della SageMaker HyperPod piattaforma di un cluster

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di patching sostituisce il volume root con l'AMI aggiornata, il che significa che i dati precedenti memorizzati nel volume root dell'istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il cluster. HyperPod L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

SageMaker HyperPod note di rilascio: 24 aprile 2024

Correzioni di bug

  • È stato corretto un bug ThreadsPerCore relativo al parametro nell'ClusterInstanceGroupSpecificationAPI. Con la correzione, le UpdateClusterAPI CreateClusterand accettano e applicano correttamente l'input dell'utente. ThreadsPerCore Questa correzione è efficace sui HyperPod cluster creati dopo il 24 aprile 2024. Se hai riscontrato problemi con questo bug e desideri applicare questa correzione al tuo cluster, devi creare un nuovo cluster. Assicurati di eseguire il backup e il ripristino del lavoro durante il passaggio a un nuovo cluster seguendo le istruzioni riportate inUtilizza lo script di backup fornito da SageMaker HyperPod.

SageMaker HyperPod note di rilascio: 27 marzo 2024

HyperPod patch software

Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.

Fasi di aggiornamento

  • Esegui il comando seguente per chiamare l'API del UpdateClustersoftware per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta. Aggiorna il software della SageMaker HyperPod piattaforma di un cluster

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di patching sostituisce il volume root con l'AMI aggiornata, il che significa che i dati precedenti memorizzati nel volume root dell'istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il cluster. HyperPod L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

Miglioramenti

  • Aumento del timeout del servizio di ripristino automatico a 60 minuti.

  • Processo di sostituzione delle istanze migliorato per non riavviare il controller Slurm.

  • Messaggi di errore migliorati derivanti dall'esecuzione di script del ciclo di vita, come errori di download ed errori di controllo dello stato delle istanze all'avvio dell'istanza.

Correzioni di bug

  • È stato corretto un bug con il servizio cronico che causava un problema con la sincronizzazione dell'ora.

  • Risolto un bug relativo all'analisi. slurm.conf

  • Risolto un problema con la libreria NVIDIA go-dcgm.

SageMaker HyperPod note di rilascio: 14 marzo 2024

HyperPod patch software

Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.

Fasi di aggiornamento

  • Esegui il comando seguente per chiamare l'API del UpdateClustersoftware per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta. Aggiorna il software della SageMaker HyperPod piattaforma di un cluster

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di patching sostituisce il volume root con l'AMI aggiornata, il che significa che i dati precedenti memorizzati nel volume root dell'istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il cluster. HyperPod L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

Miglioramenti

SageMaker HyperPod note di rilascio: 15 febbraio 2024

Nuove funzionalità

  • Aggiunta una nuova UpdateClusterSoftware API per l'applicazione SageMaker HyperPod di patch di sicurezza. Quando le patch di sicurezza diventano disponibili, ti consigliamo di aggiornare SageMaker HyperPod i cluster esistenti nel tuo account eseguendoli. aws sagemaker update-cluster-software --cluster-name your-cluster-name Per seguire le future patch di sicurezza, continua a tenere traccia di questa pagina delle note di SageMaker HyperPod rilascio di Amazon. Per scoprire come funziona l'UpdateClusterSoftwareAPI, consultaAggiorna il software della SageMaker HyperPod piattaforma di un cluster.

SageMaker HyperPod note di rilascio: 29 novembre 2023

Nuove funzionalità

  • Ha lanciato Amazon SageMaker HyperPod al AWS re:Invent 2023.

HyperPod patch software

Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.

  • Basato sull'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) rilasciata il 18/10/23

  • Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base

    • Slurm: v23.02.3

    • Modifica: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico