Utilizzo dell'interfaccia utente SageMaker HyperPod della console - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dell'interfaccia utente SageMaker HyperPod della console

Crea il tuo primo SageMaker HyperPod cluster utilizzando l'interfaccia utente della SageMaker HyperPod console.

Crea il tuo primo SageMaker HyperPod cluster con Slurm

Il seguente tutorial mostra come creare un nuovo SageMaker HyperPod cluster e configurarlo con Slurm tramite l'interfaccia utente della console. SageMaker Seguendo il tutorial, creerai un HyperPod cluster con tre nodi Slurm,, e. my-controller-group my-login-group worker-group-1

  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Scegli HyperPod Clusters nel riquadro di navigazione a sinistra.

  3. Nella pagina SageMaker HyperPod Cluster, scegli Crea cluster.

  4. Nel Passaggio 1: Impostazioni del cluster, specifica un nome per il nuovo cluster. Salta la sezione Tag.

  5. Nel passaggio 2: Gruppi di istanze, aggiungi gruppi di istanze. Ogni gruppo di istanze può essere configurato in modo diverso ed è possibile creare un cluster eterogeneo composto da più gruppi di istanze con vari tipi di istanze. Per gli script di configurazione del ciclo di vita da eseguire sul gruppo di istanze durante la creazione del cluster, puoi iniziare utilizzando gli script del ciclo di vita di esempio forniti nell'archivio Awsome Distributed Training. GitHub

    1. Per il nome del gruppo di istanze, specifica un nome per il gruppo di istanze. Per questo tutorial, crea tre gruppi di istanze denominati my-controller-groupmy-login-group, eworker-group-1.

    2. Per Seleziona il tipo di istanza, scegli l'istanza per il gruppo di istanze. Per questo tutorial, selezionate ml.c5.xlarge for my-controller-groupmy-login-group, ml.m5.4xlarge for e ml.trn1.32xlarge forworker-group-1.

      Assicurati di scegliere il tipo di istanza con quote sufficienti nel tuo account oppure richiedi quote aggiuntive seguendo l'indirizzo. SageMaker HyperPod quote

    3. Per Quantità, specifica un numero intero che non superi la quota di istanza per l'utilizzo del cluster. Per questo tutorial, inserisci 1 per tutti e tre i gruppi.

    4. Per i file di script dal percorso al ciclo di vita di S3, inserisci il percorso Amazon S3 in cui sono archiviati gli script del ciclo di vita. Se non disponi di script del ciclo di vita, segui i seguenti passaggi secondari per utilizzare gli script del ciclo di vita di base forniti dal team di assistenza. SageMaker HyperPod

      1. Clona l'archivio Awsome Distributed Training. GitHub

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. Sotto 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config, puoi trovare un set di script di base per il ciclo di vita. Per ulteriori informazioni sugli script del ciclo di vita, consulta anche. Personalizza SageMaker HyperPod i cluster utilizzando gli script del ciclo di vita

      3. Scrivi un file di configurazione Slurm e salvalo con nome. provisioning_params.json Nel file, specifica i parametri di configurazione Slurm di base per assegnare correttamente i nodi Slurm ai gruppi di istanze del cluster. SageMaker HyperPod Ad esempio, provisioning_params.json dovrebbe essere simile al seguente in base al gruppo di istanze del HyperPod cluster configurato tramite i passaggi precedenti 5a, 5b e 5c.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Carica gli script nel tuo bucket Amazon S3. Crea un bucket S3 con un percorso nel seguente formato:. s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src Puoi creare questo bucket utilizzando la console Amazon S3.

        Nota

        È necessario inserire come prefisso sagemaker- il percorso del bucket S3, poiché il IAMruolo per SageMaker HyperPod with consente AmazonSageMakerClusterInstanceRolePolicy solo ai principali di accedere ai bucket S3 con questo prefisso specifico.

    5. Per Directory path to lifecycle script in fase di creazione, inserisci il nome del file dello script del ciclo di vita in S3 path to lifecycle script files.

    6. Per il IAMruolo, scegli il ruolo che hai creato utilizzando il dalla IAM sezione. AmazonSageMakerClusterInstanceRolePolicy IAMruolo per SageMaker HyperPod

    7. In Configurazione avanzata, puoi configurare le seguenti configurazioni opzionali.

      1. (Facoltativo) Per Thread per core, specificate se disabilitare 1 il multithreading e abilitare il multithreading. 2 Per scoprire quale tipo di istanza supporta il multithreading, consulta la tabella di riferimento dei CPUcore e dei thread per CPU core per tipo di istanza nella Amazon Elastic Compute Cloud User Guide.

      2. (Facoltativo) Per le configurazioni di storage di istanze aggiuntive, specifica un numero intero compreso tra 1 e 16384 per impostare la dimensione di un volume Elastic Block Store () aggiuntivo in gigabyte (GB). EBS Il EBS volume è collegato a ciascuna istanza del gruppo di istanze. Il percorso di montaggio predefinito per il EBS volume aggiuntivo è/opt/sagemaker. Dopo aver creato correttamente il cluster, è possibile SSH accedere alle istanze del cluster (nodi) e verificare se il EBS volume è montato correttamente eseguendo il df -h comando. Il collegamento di un EBS volume aggiuntivo fornisce uno storage stabile, fuori istanza e persistente in modo indipendente, come descritto nella sezione EBSVolumi Amazon della Amazon Elastic Block Store User Guide.

  6. Nella fase 3: Configurazione avanzata, configura le impostazioni di rete all'interno, all'interno e all'esterno del cluster. Seleziona il tuo VPC se ne hai già uno che dà SageMaker accesso al tuoVPC. Se non ne hai uno ma desideri crearne uno nuovoVPC, segui le istruzioni su Crea un VPC nella Guida per l'utente di Amazon Virtual Private Cloud. Puoi lasciarla impostata su no VPC per utilizzare quella predefinita SageMaker VPC.

  7. Nel passaggio 4: rivedi e crea, rivedi la configurazione che hai impostato dai passaggi 1 a 3 e completa l'invio della richiesta di creazione del cluster.

  8. Il nuovo cluster dovrebbe apparire in Clusters nel riquadro principale della SageMaker HyperPod console. Puoi controllarne lo stato visualizzato nella colonna Stato.

  9. Dopo che lo stato del cluster diventaInService, puoi iniziare ad accedere ai nodi del cluster. Per accedere ai nodi del cluster e iniziare a eseguire carichi di lavoro ML, consulta. Offerte di lavoro sui SageMaker HyperPod cluster

Eliminare il cluster e pulire le risorse

Dopo aver testato con successo la creazione di un SageMaker HyperPod cluster, questo continua a funzionare nello InService stato fino all'eliminazione del cluster. Ti consigliamo di eliminare tutti i cluster creati utilizzando SageMaker istanze su richiesta quando non sono in uso per evitare di incorrere in costi di servizio continui in base ai prezzi su richiesta. In questo tutorial, hai creato un cluster composto da due gruppi di istanze. Uno di essi utilizza un'istanza C5, quindi assicurati di eliminare il cluster seguendo le istruzioni riportate all'indirizzoEliminare un SageMaker HyperPod cluster.

Tuttavia, se hai creato un cluster con capacità di elaborazione riservata, lo stato dei cluster non influisce sulla fatturazione del servizio.

Per pulire gli script del ciclo di vita dal bucket S3 utilizzato per questo tutorial, vai al bucket S3 che hai usato durante la creazione del cluster e rimuovi completamente i file.

Se hai testato l'esecuzione di carichi di lavoro sul cluster, assicurati di aver caricato dati o di aver salvato artefatti in diversi bucket S3 o servizi di file system come Amazon FSx for Lustre e Amazon Elastic File System. Per evitare addebiti, elimina tutti gli artefatti e i dati dallo storage o dal file system.