As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Saiba como criar SageMaker HyperPod clusters orquestrados pelo Amazon EKS usando a CLI AWS .
-
Antes de criar um SageMaker HyperPod cluster:
-
Certifique-se de ter um cluster existente do Amazon EKS instalado e em execução. Para obter instruções sobre como criar um novo cluster do Amazon EKS, consulte Criar um cluster do Amazon EKS no Guia do usuário do Amazon EKS.
-
Instale o chart do Helm conforme as instruções em Instale pacotes no cluster do Amazon EKS usando o Helm.
-
-
Prepare um script de configuração de ciclo de vida e faça upload em um bucket do Amazon S3, como
s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/
.Para começar rapidamente, baixe o script
on_create.sh
de amostra do GitHub repositório de treinamento distribuído AWS ome e carregue-o no bucket do S3. Esse script configura o arquivo de registro /var/log/provision/provisioning.log
necessário CloudWatch para coletar registros dos contêineres do Pod. Você também pode incluir instruções adicionais de configuração, uma série de scripts de configuração ou comandos a serem executados durante o estágio de provisionamento do HyperPod cluster.Importante
Se você criar um Função do IAM para SageMaker HyperPod anexando somente a
AmazonSageMakerClusterInstanceRolePolicy
gerenciada, seu cluster terá acesso aos buckets do Amazon S3 com o prefixo específicosagemaker-
. -
Prepare um arquivo de solicitação de CreateClusterAPI no formato JSON. Para
ExecutionRole
, forneça o ARN do perfil do IAM que você criou com oAmazonSageMakerClusterInstanceRolePolicy
gerenciado da seção Função do IAM para SageMaker HyperPod.nota
Certifique-se de que seu SageMaker HyperPod cluster seja implantado na mesma Virtual Private Cloud (VPC) do seu cluster Amazon EKS. As sub-redes e os grupos de segurança especificados na configuração do SageMaker HyperPod cluster devem permitir conectividade de rede e comunicação com o endpoint do servidor de API do cluster Amazon EKS.
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }Observe o seguinte ao configurar para criar um novo SageMaker HyperPod cluster associado a um cluster EKS.
-
Você pode configurar até 20 grupos de instâncias sob o
InstanceGroups
parâmetro. -
Para
Orchestator.Eks.ClusterArn
, especifique o ARN do cluster do EKS que você deseja usar como orquestrador. -
Para
OnStartDeepHealthChecks
, adicioneInstanceStress
eInstanceConnectivity
para ativar Verificações de integridade profundas. -
Para
NodeRecovery
, especifiqueAutomatic
para ativar a recuperação automática de nós. SageMaker HyperPod substitui ou reinicializa instâncias (nós) quando problemas são encontrados pelo agente de monitoramento de integridade. -
Para o
Tags
parâmetro, você pode adicionar tags personalizadas para gerenciar o SageMaker HyperPod cluster como um AWS recurso. Você pode adicionar tags ao seu cluster da mesma forma que as adiciona em outros serviços AWS que oferecem apoio à marcação. Para saber mais sobre a marcação de recursos da AWS em geral, consulte o Guia do usuário de AWS recursos de marcação. -
Para o parâmetro
VpcConfig
, especifique as informações da VPC usada no cluster do EKS. As sub-redes devem ser privadas.
-
-
Execute o comando create-cluster da seguinte maneira:
Importante
Ao executar o
create-cluster
comando com o--cli-input-json
parâmetro, você deve incluir ofile://
prefixo antes do caminho completo para o arquivo JSON. Esse prefixo é necessário para garantir que o AWS CLI reconheça a entrada como um caminho de arquivo. A omissão dofile://
prefixo resulta em um erro de parâmetro de análise.aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
Isso deve retornar o ARN do novo cluster.