Testes de carga da configuração de ajuste de escala automático - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Testes de carga da configuração de ajuste de escala automático

Execute testes de carga para escolher uma configuração de escalabilidade que funcione da maneira desejada.

As diretrizes a seguir para testes de carga pressupõem que você esteja usando uma política de escalabilidade que usa a métrica alvo predefinida. SageMakerVariantInvocationsPerInstance

Determinar as características de desempenho

Execute testes de carga para encontrar o pico InvocationsPerInstance com o qual a variante de produção do modelo pode lidar, bem como a latência das solicitações à medida que a simultaneidade aumenta.

Esse valor depende do tipo de instância escolhido, das cargas que os clientes do modelo normalmente enviam, e do desempenho de qualquer dependência externa que o modelo tem.

Para encontrar o pico requests-per-second (RPS), a variante de produção do seu modelo pode lidar com a latência das solicitações
  1. Configure um endpoint com o modelo usando uma única instância. Para obter informações sobre como configurar um endpoint, consulte Implante o modelo em serviços SageMaker de hospedagem.

  2. Use uma ferramenta de teste de carregamento para gerar um número crescente de solicitações paralelas e monitorar o RPS e a latência do modelo no resultado gerado pela ferramenta.

    nota

    Você também pode monitorar requests-per-minute em vez do RPS. Nesse caso, na equação, não multiplique por 60 para calcular o SageMakerVariantInvocationsPerInstance mostrado abaixo.

    Quando a latência do modelo aumenta ou a proporção de transações bem-sucedidas diminui, trata-se do pico RPS que o modelo pode processar.

Calcular a carga do destino

Depois de encontrar as características de desempenho da variante, você pode determinar o RPS máximo a ser enviado para uma instância. O limite usado para a escalabilidade deve ser menor que esse valor máximo. Use a equação a seguir em combinação com o teste de carga para determinar o valor correto da métrica SageMakerVariantInvocationsPerInstance alvo em sua configuração de escalabilidade.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

Onde MAX_RPS é o RPS máximo determinado anteriormente, e SAFETY_FACTOR é o fator de segurança escolhido para evitar que seus clientes excedam esse RPS máximo. Multiplique por 60 para converter de RPS em para corresponder invocations-per-minute à CloudWatch métrica por minuto SageMaker usada para implementar o escalonamento automático (você não precisa fazer isso se tiver requests-per-minute medido em vez de). requests-per-second

nota

SageMaker recomenda que você comece o teste com SAFETY_FACTOR 0,5. Teste sua configuração de escalabilidade para garantir que ela opere da maneira que você espera com seu modelo, tanto para aumentar quanto para diminuir o tráfego de clientes em seu endpoint.