Usando a interface do usuário SageMaker HyperPod do console - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando a interface do usuário SageMaker HyperPod do console

Crie seu primeiro SageMaker HyperPod cluster usando a interface SageMaker HyperPod do console.

Crie seu primeiro SageMaker HyperPod cluster com o Slurm

O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface do usuário do SageMaker console. Seguindo o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-groupmy-login-group, e. worker-group-1

  1. Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/.

  2. Escolha HyperPod Clusters no painel de navegação esquerdo.

  3. Na página SageMaker HyperPod Clusters, escolha Criar cluster.

  4. Na Etapa 1: Configurações do cluster, especifique um nome para o novo cluster. Ignore a seção Tags.

  5. Na Etapa 2: grupos de instâncias, adicione grupos de instâncias. Cada grupo de instâncias pode ser configurado de forma diferente, e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para que os scripts de configuração do ciclo de vida sejam executados no grupo de instâncias durante a criação do cluster, você pode começar usando os exemplos de scripts de ciclo de vida fornecidos no repositório do Awsome Distributed Training. GitHub

    1. Em Nome do grupo de instâncias, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados my-controller-groupmy-login-group, worker-group-1 e.

    2. Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione ml.c5.xlarge para my-controller-groupmy-login-group, ml.m5.4xlarge para e ml.trn1.32xlarge paraworker-group-1.

      Certifique-se de escolher o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em. SageMaker HyperPod cotas

    3. Em Quantidade, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.

    4. Para arquivos de script do caminho do S3 para o ciclo de vida, insira o caminho do Amazon S3 no qual seus scripts de ciclo de vida estão armazenados. Se você não tiver scripts de ciclo de vida, siga as subetapas a seguir para usar os scripts básicos de ciclo de vida fornecidos pela equipe de serviço. SageMaker HyperPod

      1. Clone o repositório Awsome Distributed Training GitHub.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. Abaixo 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config, você encontra um conjunto de scripts básicos de ciclo de vida. Para saber mais sobre os scripts de ciclo de vida, consulte também. Prepare scripts de ciclo de vida para configurar o Slurm on SageMaker HyperPod

      3. Escreva um arquivo de configuração do Slurm e salve-o como. provisioning_params.json No arquivo, especifique os parâmetros básicos de configuração do Slurm para atribuir adequadamente os nós do Slurm aos grupos de instâncias do SageMaker HyperPod cluster. Por exemplo, o provisioning_params.json deve ser semelhante ao seguinte, com base no grupo de instâncias de HyperPod cluster configurado por meio das etapas anteriores 5a, 5b e 5c.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Faça o upload dos scripts para o seu bucket do Amazon S3. Crie um bucket S3 com um caminho no seguinte formato:s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Você pode criar esse bucket usando o console do Amazon S3.

        nota

        Você deve sagemaker- prefixar o caminho do bucket do S3, porque o Função do IAM para SageMaker HyperPod with AmazonSageMakerClusterInstanceRolePolicy só permite que os principais acessem os buckets do S3 com esse prefixo específico.

    5. Em Caminho do diretório para seu script de ciclo de vida ao ser criado, insira o nome do arquivo do script de ciclo de vida em Caminho do S3 para arquivos de script de ciclo de vida.

    6. Para a função do IAM, escolha a função do IAM que você criou usando a AmazonSageMakerClusterInstanceRolePolicy da seçãoFunção do IAM para SageMaker HyperPod.

    7. Em Configuração avançada, você pode definir as seguintes configurações opcionais.

      1. (Opcional) Para Threads per core, especifique 1 para desativar o multiencadeamento e 2 para habilitar o multiencadeamento. Para descobrir qual tipo de instância suporta multithreading, consulte a tabela de referência de núcleos de CPU e threads por núcleo de CPU por tipo de instância no Amazon Elastic Compute Cloud User Guide.

      2. (Opcional) Para configurações adicionais de armazenamento de instâncias, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comando. df -h A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store.

  6. Na Etapa 3: Configuração avançada, defina as configurações de rede dentro, dentro e fora do cluster. Selecione sua própria VPC se você já tiver uma que dê SageMaker acesso à sua VPC. Se você não tiver uma, mas quiser criar uma nova VPC, siga as instruções em Criar uma VPC no Guia do usuário da Amazon Virtual Private Cloud. Você pode deixar como nenhuma VPC para usar a SageMaker VPC padrão.

  7. Na Etapa 4: revisar e criar, revise a configuração que você definiu da etapa 1 a 3 e conclua o envio da solicitação de criação do cluster.

  8. O novo cluster deve aparecer em Clusters no painel principal do SageMaker HyperPod console. Você pode verificar o status exibido na coluna Status.

  9. Depois que o status do cluster mudar paraInService, você poderá começar a fazer login nos nós do cluster. Para acessar os nós do cluster e começar a executar cargas de trabalho de ML, consulteExecute trabalhos em SageMaker HyperPod clusters.

Exclua o cluster e limpe os recursos

Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando SageMaker instâncias sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, certifique-se de excluir o cluster seguindo as instruções emExcluir um SageMaker HyperPod cluster.

No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.

Para limpar os scripts de ciclo de vida do bucket do S3 usados neste tutorial, acesse o bucket do S3 que você usou durante a criação do cluster e remova completamente os arquivos.

Se você testou a execução de qualquer carga de trabalho no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx for Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.