As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Resultados da recomendação
Cada resultado do trabalho do recomendador de inferência incluiInstanceType
, InitialInstanceCount
e EnvironmentParameters
que são parâmetros variáveis de ambiente ajustados para seu contêiner para melhorar sua latência e taxa de transferência. Os resultados também incluem métricas de performance e custo como MaxInvocations
, ModelLatency
, CostPerHour
, CostPerInference
, CpuUtilization
e MemoryUtilization
.
Na tabela abaixo, fornecemos uma descrição dessas métricas. Essas métricas podem ajudá-lo a restringir sua busca pela melhor configuração de endpoint adequada ao seu caso de uso. Por exemplo, se sua motivação é a performance geral do preço com ênfase na taxa de transferência, você deve se concentrar em CostPerInference
.
Métrica | Descrição | Caso de uso |
---|---|---|
|
O intervalo de tempo gasto por um modelo para responder conforme visualizado a partir de SageMaker. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner. Unidade: milissegundos |
Workloads sigilosos à latência, como veiculação de anúncios e diagnóstico médico |
|
O número máximo de solicitações Unidades: nenhuma |
Workloads focadas na taxa de transferência, como processamento de vídeo ou inferência em lote |
|
O custo estimado por hora para seu endpoint em tempo real. Unidades: dólares norte-americanos |
Workloads econômicas sem prazos de latência |
|
O custo estimado por chamada de inferência para seu endpoint em tempo real. Unidades: dólares norte-americanos |
Maximizar a performance geral de preços com foco na produtividade |
|
A CPU utilização esperada no máximo de invocações por minuto para a instância do endpoint. Unidades: percentual |
Entenda a integridade da instância durante o benchmarking, tendo visibilidade da CPU utilização principal da instância |
|
A utilização da memória esperada no máximo de invocações por minuto para a instância do endpoint. Unidades: percentual |
Entenda a integridade da instância durante a análise comparativa, tendo visibilidade da utilização da memória principal da instância |
Em alguns casos, talvez você queira explorar outras métricas do SageMaker Endpoint Invocation, como. CPUUtilization
Cada resultado do trabalho do recomendador de inferência inclui os nomes dos endpoints gerados durante o teste de carga. Você pode usar CloudWatch para revisar os registros desses endpoints mesmo depois de serem excluídos.
A imagem a seguir é um exemplo de CloudWatch métricas e gráficos que você pode analisar para um único endpoint a partir do resultado da recomendação. O resultado dessa recomendação é de um trabalho padrão. A maneira de interpretar os valores escalares dos resultados da recomendação é que eles se baseiem no momento em que o gráfico de invocações começa a se nivelar. Por exemplo, o ModelLatency
valor relatado está no início do platô ao redor03:00:31
.
Para obter descrições completas das CloudWatch métricas usadas nos gráficos anteriores, consulte Métricas de invocação de SageMaker endpoint.
Você também pode ver métricas de performance semelhantes às ClientInvocations
NumberOfUsers
publicadas pelo recomendador de inferência no /aws/sagemaker/InferenceRecommendationsJobs
namespace. Para obter uma lista completa de métricas e descrições publicadas pelo recomendador de inferência, consulte SageMaker Métricas de empregos do Inference Recommender.
Consulte o notebook Amazon SageMaker Inference Recommender - CloudWatch Metrics