Blocos de capacidade para ML
Os blocos de capacidade para ML permitem que você reserve para uma data futura as instâncias de GPU com grande procura para lidar com suas workloads de machine learning (ML) de curta duração. As instâncias que são executadas em um bloco de capacidade são automaticamente colocadas próximas umas das outras nos UltraClusters do Amazon EC2
Com blocos de capacidade, você pode ver quando a capacidade da instância de GPU está disponível em datas futuras e agendar um bloco de capacidade para começar na hora que for melhor para você. Quando você reserva um bloco de capacidade, garante capacidade previsível de instâncias de GPU e pagando apenas pelo tempo que precisar. Recomendamos blocos de capacidade quando você precisa de GPUs para lidar com workloads de ML durante dias ou semanas seguidos e não deseja pagar por uma reserva enquanto as instâncias de GPU não estão em uso.
Estes são alguns casos de uso comuns de blocos de capacidade.
-
Treinamento e ajuste fino de modelo de ML: tenha acesso ininterrupto às instâncias de GPU que você reservou para realizar treinamento e ajuste fino do modelo de ML.
-
Experimentos e protótipos de ML: executar experimentos e desenvolver protótipos que exigem instâncias de GPU por períodos curtos.
Atualmente, há blocos de capacidade disponíveis para instâncias p5.48xlarge
e p4d.24xlarge
. As instâncias p5.48xlarge
estão disponíveis nas regiões Leste dos EUA (Ohio) e Leste dos EUA (Norte da Virgínia). As instâncias p4d.24xlarge
estão disponíveis nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon). Você pode reservar um bloco de capacidade para uma hora de início em até oito semanas no futuro.
Você pode usar blocos de capacidade para reservar instâncias p5
e p4d
com as seguintes opções de duração da reserva e quantidade de instâncias.
-
Durações de reserva para incrementos de 1 dia em um total de até 14 dias
-
Opções de quantidade de instâncias de reserva de 1, 2, 4, 8, 16, 32 ou 64 instâncias
Para reservar um bloco de capacidade, você começa especificando suas necessidades de capacidade, incluindo o tipo de instância, o número de instâncias, a quantidade de tempo, a primeira data de início e a última data de término de que precisa. Depois, você vê uma oferta disponível do bloco de capacidade que atende às suas especificações. A oferta do bloco de capacidade inclui detalhes como hora de início, zona de disponibilidade e preço da reserva. O preço de oferta de um bloco de capacidade depende da disponibilidade e da demanda no momento em que a oferta é feita. Depois que você reserva um bloco de capacidade, o preço não muda mais. Para ter mais informações, consulte Preços e faturamento de blocos de capacidade.
Quando você compra uma oferta de bloco de capacidade, a reserva é criada para a data e o número de instâncias selecionados. Quando sua reserva de bloco de capacidade começa, você pode direcionar as inicializações de instância especificando o ID da reserva nas solicitações de inicialização.
Você pode usar todas as instâncias reservadas até 30 minutos antes da hora de término do bloco de capacidade. Trinta minutos antes do fim da reserva do bloco de capacidade, começamos a encerrar todas as instâncias em execução no bloco de capacidade. Usamos esse tempo para limpar as instâncias antes de entregar o bloco de capacidade ao próximo cliente. Os últimos 30 minutos da reserva não são incluídos na cobrança do bloco de capacidade. Emitimos um evento por meio do EventBridge 10 minutos antes do início do processo de encerramento. Para ter mais informações, consulte Monitorar blocos de capacidade com o EventBridge.
Tópicos
Plataformas compatíveis
Atualmente, os blocos de capacidade para ML são compatíveis com instâncias p5.48xlarge
e p4d.24xlarge
com locação padrão. Quando você usa o AWS Management Console para comprar um bloco de capacidade, a opção de plataforma padrão é a Linux/UNIX. Quando você usa a AWS Command Line Interface (AWS CLI) ou o AWS SDK para comprar um bloco de capacidade, as seguintes opções de plataforma estão disponíveis:
-
Linux/UNIX
-
Red Hat Enterprise Linux
-
RHEL com HA
-
SUSE Linux
-
Ubuntu Pro
Considerações
Antes de usar os blocos de capacidade, considere os seguintes detalhes e limitações.
-
Os blocos de capacidade começam e terminam às 11h30, Horário Universal Coordenado (UTC).
-
O processo de encerramento de instâncias em execução em um bloco de capacidade começa às 11h, Horário Universal Coordenado (UTC) no último dia da reserva.
-
Os blocos de capacidade podem ser reservados para uma hora de início em até oito semanas no futuro.
-
Não é permitido modificar nem cancelar blocos de capacidade.
-
Os blocos de capacidade não podem ser compartilhados entre contas da AWS nem dentro da sua organização da AWS.
-
Os blocos de capacidade não podem ser usados em um grupo de reserva de capacidade.
-
O número total de instâncias que podem ser reservadas em blocos de capacidade entre todas as contas da sua organização da AWS não pode ultrapassar 64 instâncias em uma determinada data.
-
Para usar um bloco de capacidade, as instâncias devem ser direcionadas especificamente para o ID da reserva.
-
As instâncias em um bloco de capacidade não contam para seus limites de instâncias sob demanda.
-
Para instâncias P5 usando uma AMI personalizada, verifique se você tem os softwares e a configuração necessários para EFA.
-
No momento, os blocos de capacidade não podem ser usados com grupos de nós gerenciados pelo Amazon EKS ou com o Karpenter. Para obter mais informações sobre como criar um grupo de nós autogerenciado do Amazon EKS, consulte Blocos de capacidade para ML no Guia do usuário do Amazon EKS.
Recursos relacionados
Após criar um bloco de capacidade, você poderá fazer o seguinte com ele:
-
Iniciar instâncias no bloco de capacidade. Para ter mais informações, consulte Iniciar instâncias em blocos de capacidade.
-
Crie um grupo do Amazon EC2 Auto Scaling. Para obter mais informações, consulte Usar blocos de capacidade para workloads de machine learning no Guia do usuário do Amazon EC2 Auto Scaling.
nota
Se você usa o Amazon EC2 Auto Scaling ou o Amazon EKS, é possível programar a escalabilidade para ser executada no início da reserva do bloco de capacidade. Com o escalamento programado, o AWS gerencia automaticamente as novas tentativas para que você não precise se preocupar em implementar uma lógica de repetições para lidar com falhas transitórias.
-
Melhore os fluxos de trabalho de ML com o AWS ParallelCluster. Para obter mais informações, consulte Aprimorar fluxos de trabalho de ML com o AWS ParallelCluster e blocos de capacidade do Amazon EC2 para ML
.
Para obter mais informações sobre o AWS ParallelCluster, consulte O que é o AWS ParallelCluster.