As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos de instância para algoritmos internos
A maioria dos algoritmos de SageMaker IA da Amazon foi projetada para aproveitar as vantagens da computação de GPU para treinamento. Apesar dos custos mais altos por instância, GPUs treine mais rapidamente, tornando-os mais econômicos. As exceções são observadas neste guia.
Para saber mais sobre as EC2 instâncias compatíveis, consulte Detalhes da instância
O tamanho e o tipo de dados podem ter grande impacto sobre qual configuração de hardware é mais eficaz. Quando o mesmo modelo é treinado de forma recorrente, testes iniciais em uma variedade de tipos de instância podem revelar configurações mais econômicas a longo prazo. Além disso, os algoritmos que treinam com mais eficiência GPUs podem não exigir GPUs uma inferência eficiente. Faça testes para determinar a solução mais econômica. Para obter uma recomendação automática de instância ou realizar testes de carga personalizados, use o Amazon SageMaker Inference Recommender.
Para obter mais informações sobre as especificações de hardware de SageMaker IA, consulte Tipos de instância do Amazon SageMaker AI ML
UltraServers
UltraServers conecte várias EC2 instâncias da Amazon usando uma interconexão aceleradora de baixa latência e alta largura de banda. Eles são desenvolvidos para lidar com AI/ML cargas de trabalho de grande escala que exigem poder de processamento significativo. Para obter mais informações, consulte Amazon EC2 UltraServers
Para começar a usar a UltraServers Amazon SageMaker AI, crie um plano de treinamento. Quando você UltraServer estiver disponível no plano de treinamento, crie um trabalho de treinamento com a AWS Management Console API Amazon SageMaker AI ou AWS CLI. Lembre-se de especificar o tipo de UltraServer instância que você comprou no plano de treinamento.
Um UltraServer pode executar um ou vários trabalhos ao mesmo tempo. UltraServers agrupa instâncias, o que lhe dá alguma flexibilidade em termos de como alocar sua UltraServer capacidade em sua organização. Ao configurar seus trabalhos, lembre-se também das diretrizes de segurança de dados da sua organização, pois instâncias em uma UltraServer podem acessar dados de outra tarefa em outra instância na mesma UltraServer.
Se você encontrar falhas de hardware no UltraServer, a SageMaker IA tentará resolver o problema automaticamente. À medida que a SageMaker IA investiga e resolve o problema, você pode receber notificações e ações por meio de AWS Health Eventos ou. AWS Support
Quando seu trabalho de treinamento termina, a SageMaker IA interrompe as instâncias, mas elas permanecem disponíveis em seu plano de treinamento se o plano ainda estiver ativo. Para manter uma instância em UltraServer execução após a conclusão de um trabalho, você pode usar pools quentes gerenciados.
Se o seu plano de treinamento tiver capacidade suficiente, você poderá até mesmo executar trabalhos de treinamento em vários UltraServers. Por padrão, cada uma UltraServer vem com 18 instâncias, incluindo 17 instâncias e 1 instância sobressalente. Se você precisar de mais instâncias, precisará comprar mais UltraServers. Ao criar um trabalho de treinamento, você pode configurar como os trabalhos são distribuídos UltraServers usando o InstancePlacementConfig
parâmetro.
Se você não configurar a colocação profissional, a SageMaker IA alocará automaticamente as tarefas para instâncias dentro do seu. UltraServer Essa estratégia padrão é baseada no melhor esforço que prioriza o preenchimento de todas as instâncias em uma única instância UltraServer antes de usar uma diferente. UltraServer Por exemplo, se você solicitar 14 instâncias e tiver 2 UltraServers no seu plano de treinamento, a SageMaker IA usará todas as instâncias da primeira UltraServer. Se você solicitou 20 instâncias e tem 2 UltraServers em seu plano de treinamento, a SageMaker IA usará todas as 17 instâncias na primeira UltraServer e depois usará 3 da segunda UltraServer. As instâncias dentro de um UltraServer uso NVLink para comunicação, mas individuais, UltraServers usam o Elastic Fabric Adapter (EFA), o que pode afetar o desempenho do treinamento do modelo.