Esegui corsi di formazione distribuiti su un cluster eterogeneo in Amazon AI SageMaker

Tramite l'distributionargomento della classe SageMaker AI estimator, puoi assegnare un gruppo di istanze specifico per eseguire la formazione distribuita. Ad esempio, supponiamo di avere i seguenti due gruppi di istanze e di voler eseguire un addestramento multi-GPU su uno di essi.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

Puoi impostare la configurazione di addestramento distribuito per uno dei gruppi di istanze. Ad esempio, i seguenti esempi di codice mostrano come assegnare training_group_2 con due istanze ml.p3dn.24xlarge alla configurazione di addestramento distribuito.

Nota

Attualmente, è possibile specificare solo un gruppo di istanze di un cluster eterogeneo per la configurazione di distribuzione.

Con MPI

Con la libreria parallela di dati SageMaker AI

Nota

Quando usi la libreria parallela di dati SageMaker AI, assicurati che il gruppo di istanze sia composto dai tipi di istanze supportati dalla libreria.

Per ulteriori informazioni sulla libreria parallela di dati SageMaker AI, consulta SageMaker AI Data Parallel Training.

Con la libreria parallela di modelli SageMaker AI

Per ulteriori informazioni sulla libreria parallela di modelli SageMaker AI, consulta SageMaker AI Model Parallel Training.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configura un processo di formazione con un cluster eterogeneo in Amazon AI SageMaker

Modifica lo script di formazione per assegnare gruppi di istanze