Execute trabalhos usando a SageMaker HyperPod CLI - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Execute trabalhos usando a SageMaker HyperPod CLI

Para executar trabalhos, certifique-se de ter instalado o Kubeflow Training Operator nos clusters EKS. Para obter mais informações, consulte Instale pacotes no cluster do Amazon EKS usando o Helm.

Execute o hyperpod get-cluster comando para obter a lista de HyperPod clusters disponíveis.

hyperpod get-clusters

Execute o hyperpod connect-cluster para configurar a SageMaker HyperPod CLI com o cluster EKS orquestrando o cluster. HyperPod

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Use o comando hyperpod start-job para executar um trabalho. O comando a seguir mostra o comando com as opções necessárias.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

O comando hyperpod start-job também vem com várias opções, como retomada automática de tarefas e agendamento de tarefas.

Ativando a retomada automática do trabalho

O comando hyperpod start-job também tem as seguintes opções para especificar a retomada automática do trabalho: Para permitir que a retomada automática de tarefas funcione com os recursos de resiliência do SageMaker HyperPod nó, você deve definir o valor da restart-policy opção como. OnFailure O trabalho deve ser executado sob o namespace kubeflow ou com um namespace prefixado com hyperpod.

  • [--auto-resume <bool>] #Optional, habilita a retomada automática do trabalho após falhas; o padrão é false.

  • [--max-retry <int>] #Optional, se a retomada automática for verdadeira, o valor padrão de repetição máxima será 1 se não for especificado.

  • [--restart-policy<enum>] #Optional, política de reinicialização. PyTorchJob Os valores disponíveis são Always, OnFailure, Never ou ExitCode. O valor padrão é OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Executar trabalhos com opções de agendamento

O comando hyperpod start-job tem as seguintes opções para configurar o trabalho com mecanismos de enfileiramento:

nota

Você precisa do Kueue instalado no cluster do EKS. Se você não instalou, siga as instruções emConfiguração para governança de SageMaker HyperPod tarefas.

  • [--scheduler-type <enum>] #Optional, especifique o tipo de agendador. O padrão é Kueue.

  • [--queue-name <string>] #Optional, especifique o nome da fila local ou fila de cluster que você deseja enviar com o trabalho. A fila deve ser criada pelos administradores do cluster usando. CreateComputeQuota

  • [--priority <string>] #Optional, especifique o nome da classe de prioridade do workload, que deve ser criada pelos administradores do cluster.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Executar trabalhos por meio de um arquivo de configuração

Como alternativa, você pode criar um arquivo de configuração do trabalho contendo todos os parâmetros exigidos pelo trabalho e, em seguida, passar esse arquivo de configuração para o comando hyperpod start-job usando a opção --config-file. Neste caso:

  1. Crie o arquivo de configuração do trabalho com os parâmetros necessários. Consulte o arquivo de configuração do trabalho no GitHub repositório SageMaker HyperPod CLI para obter um arquivo de configuração de linha de base.

  2. Inicie o trabalho usando o arquivo de configuração da seguinte maneira:

    hyperpod start-job --config-file /path/to/test_job.yaml
dica

Para obter uma lista completa dos parâmetros do hyperpod start-job comando, consulte a seção Submitting a Job no README.md repositório SageMaker HyperPod GitHub CLI.