SageMaker HyperPod Domande frequenti - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod Domande frequenti

Utilizza le seguenti domande frequenti per risolvere i problemi relativi all'utilizzo. SageMaker HyperPod

D: Perché non riesco a trovare i gruppi di log del mio SageMaker HyperPod cluster in Amazon CloudWatch?

Per impostazione predefinita, i log degli agenti e i registri di avvio delle istanze vengono inviati all'account della HyperPod piattaforma. CloudWatch Nel caso degli script del ciclo di vita degli utenti, i log di configurazione del ciclo di vita vengono inviati all'account dell'utente. CloudWatch

Se utilizzi gli script del ciclo di vita di esempio forniti dal team di HyperPod assistenza, puoi aspettarti di trovare i log di configurazione del ciclo di vita scritti su e non incontrerai questo problema. /var/log/provision/provisioning.log

Tuttavia, se utilizzi percorsi personalizzati per raccogliere i log dal provisioning del ciclo di vita e non riesci a trovare i gruppi di log che appaiono nel tuo account CloudWatch, ciò potrebbe essere dovuto a una mancata corrispondenza tra i percorsi dei file di registro specificati negli script del ciclo di vita e ciò che cerca l' CloudWatch agente in esecuzione sulle istanze del HyperPod cluster. In questo caso, significa che è necessario configurare correttamente gli script del ciclo di vita per inviare i log all' CloudWatch agente e configurare di conseguenza la configurazione dell' CloudWatch agente. Per risolvere il problema, scegliete una delle seguenti opzioni.

  • Opzione 1: aggiorna gli script del ciclo di vita su cui scrivere i log. /var/log/provision/provisioning.log

  • Opzione 2: aggiorna l' CloudWatch agente per cercare percorsi personalizzati per il provisioning del ciclo di vita dei log.

    1. Ogni istanza HyperPod del cluster contiene un file di configurazione CloudWatch dell'agente in formato JSON all'indirizzo. /opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json Nel file di configurazione, trova il nome logs.logs_collected.files.collect_list.file_path del campo. Con l'impostazione predefinita di HyperPod, la coppia chiave-valore dovrebbe essere "file_path": "/var/log/provision/provisioning.log" quella documentata in. Registrazione SageMaker HyperPod a livello di istanza Il seguente frammento di codice mostra l'aspetto del file JSON con la configurazione predefinita. HyperPod

      "logs": { "logs_collected": { "files": { "collect_list": [ { "file_path": "/var/log/provision/provisioning.log", "log_group_name": "/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]", "log_stream_name": "LifecycleConfig/[InstanceGroupName]/{instance_id}", "retention_in_days": -1 } ] } }, "force_flush_interval": 3 }
    2. Sostituisci il valore del nome del "file_path" campo con il percorso personalizzato che usi negli script del ciclo di vita. Ad esempio, se hai impostato gli script del ciclo di vita su cui scrivere/var/log/custom-provision/custom-provisioning.log, aggiorna il valore in modo che corrisponda ad esso come segue.

      "file_path": "/var/log/custom-provision/custom-provisioning.log"
    3. Riavvia l' CloudWatch agente con il file di configurazione per completare l'applicazione del percorso personalizzato. Ad esempio, il CloudWatch comando seguente mostra come riavviare l' CloudWatch agente con il file di configurazione dell' CloudWatch agente del passaggio 1. Per ulteriori informazioni, vedere anche Risoluzione dei problemi dell' CloudWatch agente.

      sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json

D: Quali configurazioni particolari HyperPod gestisce nei file di configurazione di Slurm, ad esempio e? slurm.conf gres.conf

Quando si crea un cluster Slurm su HyperPod, l' HyperPod agente configura gres.confi file slurm.confand /opt/slurm/etc/ per gestire il cluster Slurm in base alla richiesta di creazione del cluster e agli script del ciclo di vita. HyperPod L'elenco seguente mostra quali parametri specifici l'agente gestisce e sovrascrive. HyperPod

Importante

Ti consigliamo vivamente di NON modificare questi parametri gestiti da HyperPod.

  • In slurm.conf, HyperPod imposta i seguenti parametri di base: ClusterNameSlurmctldHost,PartitionName, eNodeName.

    Inoltre, per abilitare la Ripresa automatica funzionalità, HyperPod richiede i SchedulerParameters parametri TaskPlugin e impostati come segue. Per impostazione predefinita, l' HyperPod agente imposta questi due parametri con i valori richiesti.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • In gres.conf, HyperPod gestisce NodeName i nodi GPU.

D: Come posso eseguire Docker sui nodi Slurm? HyperPod

Per aiutarti a eseguire Docker sui nodi Slurm in esecuzione HyperPod, il team di HyperPod assistenza fornisce script di configurazione che puoi includere come parte della configurazione del ciclo di vita per la creazione di cluster. Per ulteriori informazioni, consultare Inizia con gli script del ciclo di vita di base forniti da HyperPod e Esegui contenitori Docker su un nodo di calcolo Slurm su HyperPod.

D: Come posso utilizzare l'archivio NVMe locale di istanze P per avviare contenitori Docker o Enroot con Slurm?

Poiché il volume root predefinito del nodo principale di solito è limitato a 100 GB di volume EBS, è necessario configurare Docker ed Enroot per utilizzare l'instance store NVMe locale. Per informazioni su come configurare NVMe Store e utilizzarlo per avviare contenitori Docker, consulta. Esegui contenitori Docker su un nodo di calcolo Slurm su HyperPod

D: Come configurare i gruppi di sicurezza EFA?

Se desideri creare un HyperPod cluster con istanze abilitate per EFA, assicurati di configurare un gruppo di sicurezza per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. Per ulteriori informazioni, consulta la Fase 1: Preparare un gruppo di sicurezza compatibile con EFA nella Guida per l'utente di Amazon EC2.

D: Come posso monitorare i nodi del mio cluster? HyperPod Sono state esportate delle CloudWatch metriche da? HyperPod

Per ottenere visibilità sull'utilizzo delle risorse del HyperPod cluster, consigliamo di integrare il cluster con Amazon Managed Grafana e Amazon Managed Service for Prometheus. HyperPod Con varie dashboard Grafana open source e pacchetti di esportazione, puoi esportare e visualizzare le metriche relative alle risorse del cluster. HyperPod Per ulteriori informazioni sulla configurazione SageMaker HyperPod con Amazon Managed Grafana e Amazon Managed Service for Prometheus, consulta. Monitora le risorse SageMaker HyperPod del cluster Tieni presente che SageMaker HyperPod attualmente non supporta l'esportazione di metriche di sistema su Amazon. CloudWatch

D: Posso aggiungere uno storage aggiuntivo ai nodi del HyperPod cluster? Le istanze del cluster hanno un archivio di istanze locale limitato.

Se lo storage predefinito delle istanze è insufficiente per il carico di lavoro, puoi configurare spazio di archiviazione aggiuntivo per istanza. A partire dal rilascio del 20 giugno 2024, puoi aggiungere un volume Amazon Elastic Block Store (EBS) aggiuntivo a ciascuna istanza del cluster. SageMaker HyperPod Tieni presente che questa funzionalità non può essere applicata a gruppi di istanze di SageMaker HyperPod cluster esistenti creati prima del 20 giugno 2024. Puoi utilizzare questa funzionalità applicando patch SageMaker HyperPod ai cluster esistenti creati prima del 20 giugno 2024 e aggiungendovi nuovi gruppi di istanze. Questa funzionalità è pienamente efficace per tutti i SageMaker HyperPod cluster creati dopo il 20 giugno 2024.