Ajuste de escala automático de endpoints com vários contêineres

Se você quiser configurar o ajuste de escala automático para um endpoint de vários contêineres usando a métrica InvocationsPerInstance, recomendamos que o modelo em cada contêiner exiba utilização e latência de CPU semelhantes em cada solicitação de inferência. Isso é recomendado porque, se o tráfego para o endpoint de vários contêineres mudar de um modelo de baixa utilização da CPU para um modelo de alta utilização da CPU, mas o volume geral de chamadas permanecer o mesmo, o endpoint não se expandirá e talvez não haja instâncias suficientes para lidar com todas as solicitações do modelo de alta utilização da CPU. Para obter informações sobre a endpoints de ajuste de escala automático, consulte Escalabilidade automática dos modelos de SageMaker IA da Amazon.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Métricas para endpoints de vários contêineres com invocação direta

Solucionar problemas de endpoints de vários contêineres