Criação de um cluster HyperPod EKS com grupo de instâncias restritas (RIG) - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criação de um cluster HyperPod EKS com grupo de instâncias restritas (RIG)

Este tópico aborda as etapas para criar um cluster Amazon SageMaker HyperPod EKS com um grupo de instâncias restritas (RIG). Uma configuração RIG em clusters SageMaker HyperPod EKS fornece um ambiente especializado para treinar modelos do Amazon Nova. O RIG tem as seguintes restrições:

  • As cargas de trabalho do RIG são executadas em uma VPC sem Internet. Todas as entradas e saídas são estritamente regulamentadas.

  • O RIG tem restrições quanto à observabilidade das funções do Kubernetes, como Kubectl exec e logs, para garantir um ambiente seguro para o treinamento do modelo Nova.

  • O RIG só permite a personalização de imagens do Nova, e os trabalhos executados com outras imagens serão negados.

Você pode criar RIGs ao configurar grupos de instâncias em seu cluster HyperPod EKS. Embora você possa controlar o tamanho e a escala desses recursos, você não pode acessar diretamente os nós de trabalho. Essa arquitetura garante que os componentes do Nova (pesos do modelo, pontos de verificação, dados de treinamento e código) sejam acessíveis somente por meio de canais regulamentados e de um sistema de contas gerenciado por serviços.

A personalização do modelo Nova SageMaker HyperPod depende de um sistema de arquivos Lustre gerenciado por serviços FSx para alcançar o desempenho ideal. Ao criar um RIG, você deve especificar o tamanho do volume e a taxa de transferência do sistema de arquivos FSx for Lustre, que será montado em todos os nós de trabalho no grupo de instâncias. FSx for Lustre é usado para armazenar pontos de verificação intermediários e estados internos do modelo durante o treinamento distribuído. Siga as orientações fornecidas na receita para escolher um tamanho de volume e taxa de transferência adequados para garantir capacidade e desempenho suficientes. FSx Os custos de uso do Lustre serão aplicados ao seu Conta da AWS.

Notas importantes sobre o RIG em clusters HyperPod EKS

  • O RIG suporta somente o uso da função de execução para permissões. Certifique-se de que a função de execução inclua as permissões necessárias do IAM, como acesso ao Amazon S3.

  • Ao usar o Amazon for Lustre e o Amazon S3 gerenciados FSx por serviços, certifique-se de que seu sistema de arquivos for Lustre tenha o tamanho adequado FSx para sua carga de trabalho. O manifesto dos dados de treinamento é carregado no Amazon S3, que deve ser acessível pela função de execução.

  • O RIG deve ser criado ou atualizado em um novo cluster SageMaker HyperPod EKS, especificamente, criado em ou após 16 de julho de 2025. Os clusters criados antes dessa data podem conter versões ou configurações de software incompatíveis que não são suportadas pelo RIG.

Crie um cluster HyperPod EKS com o RIG (Console)

Siga estas instruções para criar um cluster HyperPod EKS com um RIG usando o HyperPod console.

Crie um cluster HyperPod EKS com RIG (CLI)

Siga estas instruções para criar um cluster HyperPod EKS com um RIG usando o. AWS CLI