As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute trabalhos usando a SageMaker HyperPod CLI
Para executar trabalhos, certifique-se de ter instalado o Kubeflow Training Operator nos clusters EKS. Para obter mais informações, consulte Instale pacotes no cluster do Amazon EKS usando o Helm.
Execute o hyperpod get-cluster
comando para obter a lista de HyperPod clusters disponíveis.
hyperpod get-clusters
Execute o hyperpod connect-cluster
para configurar a SageMaker HyperPod CLI com o cluster EKS orquestrando o cluster. HyperPod
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
Use o comando hyperpod start-job
para executar um trabalho. O comando a seguir mostra o comando com as opções necessárias.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
O comando hyperpod start-job
também vem com várias opções, como retomada automática de tarefas e agendamento de tarefas.
Ativando a retomada automática do trabalho
O comando hyperpod start-job
também tem as seguintes opções para especificar a retomada automática do trabalho: Para permitir que a retomada automática de tarefas funcione com os recursos de resiliência do SageMaker HyperPod nó, você deve definir o valor da restart-policy
opção como. OnFailure
O trabalho deve ser executado sob o namespace kubeflow
ou com um namespace prefixado com hyperpod
.
-
[--auto-resume <bool>] #Optional, habilita a retomada automática do trabalho após falhas; o padrão é false.
-
[--max-retry <int>] #Optional, se a retomada automática for verdadeira, o valor padrão de repetição máxima será 1 se não for especificado.
-
[--restart-policy<enum>] #Optional, política de reinicialização. PyTorchJob Os valores disponíveis são
Always
,OnFailure
,Never
ouExitCode
. O valor padrão éOnFailure
.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Executar trabalhos com opções de agendamento
O comando hyperpod start-job
tem as seguintes opções para configurar o trabalho com mecanismos de enfileiramento:
nota
Você precisa do Kueue
-
[--scheduler-type <enum>] #Optional, especifique o tipo de agendador. O padrão é
Kueue
. -
[--queue-name <string>] #Optional, especifique o nome da fila local
ou fila de cluster que você deseja enviar com o trabalho. A fila deve ser criada pelos administradores do cluster usando. CreateComputeQuota
-
[--priority <string>] #Optional, especifique o nome da classe de prioridade do workload
, que deve ser criada pelos administradores do cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Executar trabalhos por meio de um arquivo de configuração
Como alternativa, você pode criar um arquivo de configuração do trabalho contendo todos os parâmetros exigidos pelo trabalho e, em seguida, passar esse arquivo de configuração para o comando hyperpod
start-job
usando a opção --config-file. Neste caso:
-
Crie o arquivo de configuração do trabalho com os parâmetros necessários. Consulte o arquivo de configuração do trabalho no GitHub repositório SageMaker HyperPod CLI para obter um arquivo de configuração de linha de base.
-
Inicie o trabalho usando o arquivo de configuração da seguinte maneira:
hyperpod start-job --config-file
/path/to/test_job.yaml
dica
Para obter uma lista completa dos parâmetros do hyperpod start-job
comando, consulte a seção Submitting a JobREADME.md
repositório SageMaker HyperPod GitHub CLI.