Configurar a ajuste de escala automático do modelo com o console

Como configurar o ajuste de escala automático para um modelo (console)

Abra o console Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
No painel de navegação, selecione Inferência e depois selecione Endpoints.
Escolha seu endpoint e, em seguida, nas Configurações do runtime do Endpoint, escolha a variante.
Escolha Configurar o ajuste de escala automático.
Na página Configurar ajuste de escala automático da variante, para o Ajuste automático de escala da variante, faça o seguinte:
1. Na Contagem da instância mínima, digite o número mínimo de instâncias que você quer que sejam mantidas na política de ajuste de escala. Pelo menos 1 instância é necessária.
2. Na Contagem da instância máxima, digite o número máximo de instâncias que você quer que sejam mantidas na política de ajuste de escala.
Para uma política de ajuste de escala integrada, faça o seguinte:
1. Para a Métrica de destino, SageMakerVariantInvocationsPerInstance é selecionada automaticamente para a métrica e não pode ser alterada.
2. Para o Valor de destino, digite o número médio de invocações por instância por minuto do modelo. Para determinar esse valor, siga as instruções em Testes de carga.
3. (Opcional) Para Espera ao reduzir a escala horizontalmente (segundos) e Espera ao aumentar a escala horizontalmente (segundos), insira a quantidade de tempo, em segundos, de cada período de espera.
4. (Opcional) Selecione Desativar reduzir a escala horizontalmente se você não quiser que o ajuste de escala automático encerre as instâncias na diminuição do tráfego.
Escolha Salvar.

Esse procedimento registra um modelo como um destino escalável com o Application Auto Scaling. Quando você registra um modelo, o Application Auto Scaling executa verificações de validação para confirmar se:

O modelo existe
As permissões são suficientes
Você não está registrando uma variante com uma instância de desempenho expansível, como a T2

nota
SageMaker A IA não oferece suporte ao escalonamento automático para instâncias com capacidade de intermitência, como T2, porque elas já permitem maior capacidade sob cargas de trabalho maiores. Para obter informações sobre as instâncias de desempenho expansível, consulte Tipos de instância do Amazon EC2.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos

Registrar um modelo

Configurar a ajuste de escala automático do modelo com o console

Como configurar o ajuste de escala automático para um modelo (console)

nota