Resultados da recomendação - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Resultados da recomendação

Cada resultado do trabalho do recomendador de inferência incluiInstanceType, InitialInstanceCount e EnvironmentParameters que são parâmetros variáveis de ambiente ajustados para seu contêiner para melhorar sua latência e taxa de transferência. Os resultados também incluem métricas de performance e custo como MaxInvocations, ModelLatency, CostPerHour, CostPerInference, CpuUtilization e MemoryUtilization.

Na tabela abaixo, fornecemos uma descrição dessas métricas. Essas métricas podem ajudá-lo a restringir sua busca pela melhor configuração de endpoint adequada ao seu caso de uso. Por exemplo, se sua motivação é a performance geral do preço com ênfase na taxa de transferência, você deve se concentrar em CostPerInference.

Métrica Descrição Caso de uso

ModelLatency

O intervalo de tempo gasto por um modelo para responder conforme visualizado a partir de SageMaker. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner.

Unidade: milissegundos

Workloads sigilosos à latência, como veiculação de anúncios e diagnóstico médico

MaximumInvocations

O número máximo de solicitações InvokeEndpoint enviadas para um endpoint do modelo em um minuto.

Unidades: nenhuma

Workloads focadas na taxa de transferência, como processamento de vídeo ou inferência em lote

CostPerHour

O custo estimado por hora para seu endpoint em tempo real.

Unidades: dólares norte-americanos

Workloads econômicas sem prazos de latência

CostPerInference

O custo estimado por chamada de inferência para seu endpoint em tempo real.

Unidades: dólares norte-americanos

Maximizar a performance geral de preços com foco na produtividade

CpuUtilization

A CPU utilização esperada no máximo de invocações por minuto para a instância do endpoint.

Unidades: percentual

Entenda a integridade da instância durante o benchmarking, tendo visibilidade da CPU utilização principal da instância

MemoryUtilization

A utilização da memória esperada no máximo de invocações por minuto para a instância do endpoint.

Unidades: percentual

Entenda a integridade da instância durante a análise comparativa, tendo visibilidade da utilização da memória principal da instância

Em alguns casos, talvez você queira explorar outras métricas do SageMaker Endpoint Invocation, como. CPUUtilization Cada resultado do trabalho do recomendador de inferência inclui os nomes dos endpoints gerados durante o teste de carga. Você pode usar CloudWatch para revisar os registros desses endpoints mesmo depois de serem excluídos.

A imagem a seguir é um exemplo de CloudWatch métricas e gráficos que você pode analisar para um único endpoint a partir do resultado da recomendação. O resultado dessa recomendação é de um trabalho padrão. A maneira de interpretar os valores escalares dos resultados da recomendação é que eles se baseiem no momento em que o gráfico de invocações começa a se nivelar. Por exemplo, o ModelLatency valor relatado está no início do platô ao redor03:00:31.

Gráficos para CloudWatch métricas.

Para obter descrições completas das CloudWatch métricas usadas nos gráficos anteriores, consulte Métricas de invocação de SageMaker endpoint.

Você também pode ver métricas de performance semelhantes às ClientInvocations NumberOfUsers publicadas pelo recomendador de inferência no /aws/sagemaker/InferenceRecommendationsJobs namespace. Para obter uma lista completa de métricas e descrições publicadas pelo recomendador de inferência, consulte SageMaker Métricas de empregos do Inference Recommender.

Consulte o notebook Amazon SageMaker Inference Recommender - CloudWatch Metrics Jupyter no repositório amazon-sagemaker-examplesGithub para ver um exemplo de como usar o for AWS SDK Python (Boto3) para explorar métricas para seus endpoints. CloudWatch