Empregos de recomendação com o Amazon SageMaker Inference Recommender

O Amazon SageMaker Inference Recommender pode fazer dois tipos de recomendações:

As recomendações de inferência (tipo de trabalho Default) executam um conjunto de testes de carga nos tipos de instância recomendados. Você também pode fazer o teste de carga para um endpoint com tecnologia sem servidor. Você só precisa fornecer um pacote de modelos do nome do recurso da Amazon (ARN) para executar esse tipo de trabalho de recomendação. Os trabalhos de recomendação de inferência são concluídos em 45 minutos.
As recomendações de endpoint (tipo de trabalho Advanced) são baseadas em um teste de carga personalizado em que você seleciona as instâncias de ML desejadas ou um endpoint sem servidor e fornece um padrão de tráfego personalizado e requisitos de latência e throughput com base em seus requisitos de produção. Este trabalho leva, em média, 2 horas para ser concluído, dependendo da duração definida para o trabalho e do número total de configurações de inferência testadas.

Ambos os tipos de recomendações usam o mesmo APIs para criar, descrever e interromper trabalhos. O resultado é uma lista de recomendações de configuração de instâncias com variáveis de ambiente, custo, throughput e métricas de latência associadas. Os trabalhos de recomendação também fornecem uma contagem de instância inicial que você pode usar para configurar uma política de dimensionamento automático. Para diferenciar os dois tipos de trabalhos, ao criar um trabalho por meio do console de SageMaker IA ou do APIs, especifique Default a criação de recomendações preliminares de endpoint e Advanced para testes de carga e recomendações de endpoints personalizados.

nota

Você não precisa fazer os dois tipos de trabalhos de recomendação em seu próprio fluxo de trabalho. Você pode fazer qualquer uma delas independentemente da outra.

O recomendador de inferência também pode fornecer uma lista de instâncias potenciais ou os cinco principais tipos de instância otimizados em termos de custo, produtividade e latência para implantação de modelo, juntamente com uma pontuação de confiança. Você pode escolher essas instâncias ao implantar seu modelo. O recomendador de inferência executa automaticamente a análise comparativa em relação ao seu modelo para que você forneça as instâncias potenciais. Como essas são recomendações preliminares, recomendamos que você execute outros trabalhos de recomendação de instâncias para obter resultados mais precisos. Para ver as instâncias em potencial, acesse a página de detalhes do seu modelo de SageMaker IA. Para obter mais informações, consulte Obter instâncias prospectivas instantâneas.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos

Obter instâncias prospectivas instantâneas